データ分析の為にPandasを利用する
Jupyter Notebookを使いたくて、Anacondaをインストールしたところ、データ分析の為のツールであるPandasもインストールされていたので使ってみました。存外便利でしたので、メモをとります。
以下のようなcsvファイルを用意しました。
$cat tmp.csv a,b,c 1,1,1 2,,2 3,3,3
pandaをimportして、csvファイルを読みます。
$ python >>> import pandas as pd >>> tmp_data = pd.read_csv("tmp.csv") >>> tmp_data a b c 0 1 1.0 1 1 2 NaN 2 2 3 3.0 3
欠損データを前のデータでパディングしてみます。
>>> tmp_data = pd.read_csv("tmp.csv").fillna(method="pad") >>> tmp_data a b c 0 1 1.0 1 1 2 1.0 2 2 3 3.0 3
fillna(0)でゼロパディングもできます。
describeでデータの数、平均値などの情報を取得します。
>>> tmp_data.describe() a b c count 3.0 3.000000 3.0 mean 2.0 2.333333 2.0 std 1.0 1.154701 1.0 min 1.0 1.000000 1.0 25% 1.5 2.000000 1.5 50% 2.0 3.000000 2.0 75% 2.5 3.000000 2.5 max 3.0 3.000000 3.0 >>>
その2では、もう少し複雑なことをやってみたいと思います。