株を資金30万円から始めてみた研究者

資金30万円から株を始めてみたよ。末路はどうなるのやら。

【初心者による初心者のための】python / pandas 解説

pandasとは

pandasとは、

「データ解析を容易にする機能を持ったオープンソースのライブラリ」

です!


具体的に何ができるのかというと、


・データ操作のためのDataFrameの作成

・他フォーマットとのデータのやり取り

・データの様々な処理 (欠損値処理や集計)


などなどです。


じゃあ、実際に動作させて何ができるのか見ていきましょう!


今回用いるデータについて


今回はkaggleのHouse Prices問題に掲載されている、訓練データの一部を抜粋した以下のデータを用いる。


Id MSSubClass MSZoning LotFrontage LotArea Street Alley LotShape
1 60 RL 65 8450 Pave NA Reg
2 20 RL 80 9600 Pave NA Reg
3 60 RL 68 11250 Pave NA IR1
4 70 RL 60 9550 Pave NA IR1
5 60 RL 84 14260 Pave NA IR1
6 50 RL 85 14115 Pave NA IR1
7 20 RL 75 10084 Pave NA Reg


これを、"pandas_practice.csv"とする。


pandasでのデータ操作

pandasのimport


まずはpandasをインポートしましょう。

import pandas as pd

データの読み込み


"pd.read_csv()"


これを用いると、csvファイルをDataFrameの形式で読み込んでくれます。

#データをDataFrame形式で読み込み
df = pd.read_csv("pandas_practice.csv")


これによりcsvファイルをDataFrame形式で読み込むことができました。


とりあえず見てみましょう。

#DataFrame形式でデータを表示
df


f:id:mashkun:20180813231254p:plain



上手くできていますね!



データのタイプ


このデータのタイプを見ていきます。


データ処理を施す際、データが数値なのか文字なのかが非常に大事になります。


"df.dtypes"


を使うことでそれを確認できます!

#データのタイプを確認
df.dtypes
Id               int64
MSSubClass       int64
MSZoning        object
LotFrontage      int64
LotArea          int64
Street          object
Alley          float64
LotShape        object
dtype: object

データのサイズ


次にこのデータのサイズを確認する方法です。

"df.shape"


これは、shape (形)という単語を使っているので即覚えですね。

#DataFrameのサイズ(行数, 列数)を表示
df.shape
(7, 8)

データのカラム(列)


DataFrameのカラムの要素を見る方法です。


"df.columns"


カラムが多いときによく使います。

#DataFrameのカラムの要素を表示
df.columns
Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
       'Alley', 'LotShape'],
      dtype='object')

必要なカラム(列)を選択


データの扱う際、カラムごとに処理を施すことは少なくありません。


その場合、カラムを選択する必要があります。

"df[""]"


これによって、objectを数値にしたりすることが多いです。

#DataFrameのカラムを選択
df["Id"]
0    1
1    2
2    3
3    4
4    5
5    6
6    7
Name: Id, dtype: int64

必要なインデックス(行)を選択


上記のものより使う機会は少ないですが、知っていると便利なコードです。


df.loc[]


#DataFrameのカラムを選択
df.loc[2;6]

f:id:mashkun:20180813231238p:plain



2-7行目を取り出せてますね!


まとめ


本記事では、pandasについての基本知識と基本操作を記しました。


他にもよく使う操作があるので時間ができたらまとめたいなぁ。


今後とも是非記事をご覧になってください!