データ分析の為にPandasを利用する

Jupyter Notebookを使いたくて、Anacondaをインストールしたところ、データ分析の為のツールであるPandasもインストールされていたので使ってみました。存外便利でしたので、メモをとります。

 

以下のようなcsvファイルを用意しました。

$cat tmp.csv 
a,b,c
1,1,1
2,,2
3,3,3

pandaをimportして、csvファイルを読みます。

$ python
>>> import pandas as pd
>>> tmp_data = pd.read_csv("tmp.csv")
>>> tmp_data
   a    b  c
0  1  1.0  1
1  2  NaN  2
2  3  3.0  3

欠損データを前のデータでパディングしてみます。

>>> tmp_data = pd.read_csv("tmp.csv").fillna(method="pad")
>>> tmp_data
   a    b  c
0  1  1.0  1
1  2  1.0  2
2  3  3.0  3

fillna(0)でゼロパディングもできます。

describeでデータの数、平均値などの情報を取得します。

>>> tmp_data.describe()
         a         b    c
count  3.0  3.000000  3.0
mean   2.0  2.333333  2.0
std    1.0  1.154701  1.0
min    1.0  1.000000  1.0
25%    1.5  2.000000  1.5
50%    2.0  3.000000  2.0
75%    2.5  3.000000  2.5
max    3.0  3.000000  3.0
>>> 

その2では、もう少し複雑なことをやってみたいと思います。