TensorFlow まとめ

TensorFlowは、計算をあらかじめ記述し、それを後ほど明示的に実行するという流れをとります。「計算の記述」をOpノード、「明示的な実行」をセッションという概念で行います。

こちらの記事がよくまとまっています。
qiita.com
少し昔の記事なので、initialize_all_variablesはobsoletedなことに注意してください。(今はglobal_variables_initializerです)

以下、tfのライブラリの補足です。MNIST Basicに出てくる関数を取り扱います。

前提として、行列の概念を思い出す必要があります。
mathwords.net
をところどころで参考にしてください。

tf.constant

定数です。実際の定数を定義します。

xは1という数字です。 (数学的にはスカラーです)

import tensorflow as tf 
x = tf.constant(1)
print(sess.run(x))

1

yは[3,4]という2次元配列です。(数学的にはベクトルです。つまり1階のテンソル)

y = tf.constant([3,4]) # 2次元の配列
print(sess.run(y))

[3 4]

zは[[3,4],[5,6]]]という2次元配列です(数学的には以下の行列です。つまり2階のテンソル)
{
\left(
  \begin{array}{cc}
    3 & 4 \\
    5 & 6 \\
  \end{array}
\right)
}

z = tf.constant([[3,4],[5,6]]) # 2x2行列
print(sess.run(z))

[[3 4]
[5 6]]

tf.placeholder

セッションの外側からデータを入れるために使います。プログラミング的には、関数の入力パラメーターが、セッションに対するプレースホルダーとなります。constantは実体を指定していますが、placeholderと次に出てくるvariableは、構造を指定しているのがポイントです。

1次元(=スカラー)
import tensorflow as tf 
sess = tf.Session()

x = tf.placeholder("float") # 特に指定しない場合は、1次元の数字、つまりスカラー
double = tf.add(x,x)
r = sess.run(double, feed_dict={x:2})
print(r)

4.0

2次元(=ベクトル、1階のテンソル)
x = tf.placeholder(tf.int32,[2]) # 2次元を指定
double = tf.add(x,x)
r = sess.run(double, feed_dict={x:[1,2]}) # 実体を入力
print(r)

[2 4]

2x2行列(=は、nxm行列、つまり2階のテンソル)

x = tf.placeholder("float",[2,2]) # 2x2行列を指定
double = tf.add(x,x)
r = sess.run(double, feed_dict={x:[[1,2],[3,4]]}) # 実体を入力
print(r)

[[2. 4.]
[6. 8.]]

tf.Variable

セッションの中で変数として扱われます。

import tensorflow as tf 
x = tf.Variable([2,3], name="counter") # 2x3行列
c = tf.constant([[1,2],[3,4],[5,6]])
x = c
init_op = tf.global_variables_initializer() 
sess = tf.Session()
sess.run(init_op)
r = sess.run(x)
print(r)

[[1 2]
[3 4]
[5 6]]

tf.matmul

数学の「内積」です。

x = tf.placeholder("float", [1, 2]) # 1x2行列 
y = tf.placeholder("float", [2, 1]) # 2x1行列 
z = tf.matmul(x,y) 
init = tf.initialize_all_variables() 
sess = tf.Session() sess.run(init) 
sess.run(z,feed_dict={x: [[3, 4]], y: [[5],[6]]}) # 内積だから 3x5+4x6 = 15+24 = 39
array([[39.]], dtype=float32)

tf.nn

Nerual Network系のライブラリです。

tf.nn.softmax

Softmax(シグモイド)関数です。確率分布、つまり総和が1になっています。

z = tf.placeholder("float", [1, 3]) # 1x3行列
s = tf.nn.softmax(z)
init = tf.initialize_all_variables()
sess = tf.Session()
sess.run(init)
pd1 = sess.run(s,feed_dict={z: [[1,2,3]]})
print("[1,2,3] -> " , pd1) # 和が1
pd2 = sess.run(s,feed_dict={z: [[1,2,2]]})
print("[1,2,2] -> " , pd2) # 和が1
[1,2,3] ->  [[0.09003057 0.24472848 0.66524094]]
[1,2,2] ->  [[0.15536241 0.42231882 0.42231882]]

MNISTの tf.nn.softmax(tf.matmul(x, W) + b) の理解のためにこちらを記載します。

# 2次元ベクトルへのSoftmax回帰
x = tf.placeholder("float", [1, 2]) # 1x2行列
y = tf.placeholder("float", [2, 2]) # 2x2行列
z = tf.matmul(x,y)
s = tf.nn.softmax(z)
init = tf.initialize_all_variables()
sess = tf.Session()
sess.run(init)
pz = sess.run(z,feed_dict={x: [[3, 4]], y: [[5,6],[7,8]]})
ps = sess.run(s,feed_dict={x: [[3, 4]], y: [[5,6],[7,8]]})
print("pz -> " , pz)
print("ps -> " , ps)
pz ->  [[43. 50.]]
ps ->  [[9.1105123e-04 9.9908900e-01]]

続きはこちらです。

LSTM / Long Short Term Memory / 長期短期記憶

LSTMについて。

 

LSTMは、ニューラルネットワークのなかでもRNN(リカレントニューラルネットワーク)に分類されるものです。RNNは時系列データを学習するためのニューラルネットワークで、LSTMはRNNの中でも繰り返し改善が施されたもので、RNNの主流と言っても過言ではないでしょう。画像処理系のCNNとあわせて、昨今のニューラルネットワークの双璧をなしていると個人的には思っています。

 

主たる改善は、LSTM、Long Short Term Memory(長期短期記憶)という言葉が表すように、時系列データのなかから短期的な情報だけでなく、長期的な情報も取り込めるような設計が施されているところにあります。従来のRNNでは勾配消失問題が発生するため、長期的な情報をうまく取り込むことができませんでしたが、LSTMではこの問題が解決されています。

 

LSTMの歴史は(人口知能においては比較的)古く、1997年に論文が発表されています。

http://deeplearning.cs.cmu.edu/pdfs/Hochreiter97_lstm.pdf

その後、LSTMは複数回の改善(Forgate Gate、Peeple Connectioin、Full Gradient)がなされました。

このあたりは、非常に素晴らしい記事であるわかるLSTM ~ 最近の動向と共に - Qiita に詳しく記載されています。

 

LSTMにはLSTM Blockという概念が出てきます。前述までの改善は主にこのLSTM Blockに対してなされているものです。LSTM Blockは太陽系における惑星のようなもので、LSTMを理解するうえで非常に重要な概念ではありますが、これだけではLSTMを理解したというわけにはいきません。LSTMに対する理解の解像度を上げるのであれば、Blockで表示されるチャートで表現される意味を数式で理解することをお勧めします。また、実際にコードを書きたいのであれば、LSTMそのものの理解を実装ベースで深める必要があります。

 

前者についてはイメージはあるのですが、、少し書き出すのに時間がかかりそうです。後者については、TensorflowのLSTMのサンプルが有効だと思います。説明自体は

Recurrent Neural Networks

にあり、コードはGithubにあります。

github.com

特に以下のコードです。

tensorflow/ptb_word_lm.py at master · tensorflow/tensorflow · GitHub

 

2つの特徴的な関数がヒントになります。

BasicLSTMCell

https://www.tensorflow.org/versions/r0.9/api_docs/python/rnn_cell.html#BasicLSTMCell

MultiRNNCell

https://www.tensorflow.org/versions/r0.9/api_docs/python/rnn_cell.html#MultiRNNCell

 

関数を深掘りする前に、このチュートリアルが行っていることを説明しますと、特定の言語サンプルに対する、ある優秀な解析の再現を行っています。

 

特定の言語サンプルとは、PTB(Penn Tree Bank)のことです。以下のサイトで「Basic Examples」として提供されています。

rnnlm.org

該当する、simple-examples.tgzをダウンロードし、tar vxfzで展開すると、data/ ディレクトリの中に、ptb.test.txt (テストデータ) , ptb.train.txt (訓練データ) , ptb.valid.txt (開発データ、ハイパーパラメータの調整用) があります。ptb.test.txtの冒頭を見てみましょう。

no it was n't black monday    

but while the new york stock exchange did n't fall apart friday as the dow jones industrial average plunged N points most of it in the final hour it barely managed to stay this side of chaos ..

ブラックマンデーニューヨーク証券取引所と証券関連の言葉が綴られていますね。

PTBはコーパスというテキストを大量に集めてデータベース化した資料の1つで、データに構造を持たせたものになります。コンパクトにまとめられており、ベンチマークとしてよく利用されるそうです。やや話が逸れますが、日本語のコーパスとしては、小納言というサイトがあります。

KOTONOHA「現代日本語書き言葉均衡コーパス」 少納言

 

次に、ある優秀な解析の部分ですが、2014年に発表されたRNNの正則化に関するZarembaさんの論文に基づいています。

[1409.2329] Recurrent Neural Network Regularization 

 PDFはこちらです。

http://arxiv.org/pdf/1409.2329v5.pdf

 

LSTMでは、過学習を防止するために通常のドロップアウトがうまく機能しないことに対し、ドロップアウトの適応方法を紹介するものです。言語モデリングの応用事例として、上記のPTB(simple-examples)に適応した際の結果が紹介されている他、スピーチの認識、機械翻訳、画像キャプションの生成などへの適応が紹介されています。 

 

BasicLSTMCellについて

 

前置きが長くなりましたが、TensorflowのLSTMに関する関数の1つであるBasicLSTMCellで用いられているLSTMはこの論文に基づいて実装されています。Memory Cellの構造は以下のとおりです。

f:id:neuralnet:20160818220030p:plain

(転載については、Zarembaさんに許可を頂いております)

 

他、97年の初版LSTMに基づいたLSTMCellという関数もあります。

 

(続く)

LSTM/RNNとCNNの組み合わせ

複数言語の同時解釈への応用の観点から、以前からLSTM(もしくは単にRNN)とCNNの組み合わせについて興味がありましたので、調べました。3つほどそれらしい論文があったのでメモを取ります。

 

1. 画像認識と画像抽出のためのLong-term Reccurent Convolution Networks

[1411.4389] Long-term Recurrent Convolutional Networks for Visual Recognition and Description

PDFはこちら: https://arxiv.org/pdf/1411.4389.pdf

動画が対象になっています。動画は、基本的には画像なので、CNNによる処理が有効です。また、連続的なものですから、LSTMが関わってきます。基本的なアプローチはCNNをかけた後、LSTMで処理するモデルです。以下の3つのモデルが紹介されていました。

1)連続的な入力に対して、単一の意味を出力するモデル(動画から「走高跳び」と出力する)

2)単一の入力に対して、連続的な出力をするモデル(静止画から「人」「が」「走っている」と出力する)

3)連続的な入力に対して、連続的な出力をするモデル(動画から「人」「が」「高く」「飛んだ」と出力する)

3はCNNではなくCRFを使っていました。


2. 複数ラベルによる画像分類のための統合フレームワーク

[1604.04573] CNN-RNN: A Unified Framework for Multi-label Image Classification

PDF: https://arxiv.org/pdf/1604.04573.pdf

単一の画像に複数のラベル付けをするためのフレームワークとして、CNNにLSTMの概念を追加しているようですが、すみません、なぜLSTMを追加することで複数のラベルを扱えるようになっているかはあまりわかっていないです。

 

3. CONVOLUTIONAL, LONG SHORT-TERM MEMORY, FULLY CONNECTED DEEP NEURAL NETWORKS

CONVOLUTIONAL, LONG SHORT-TERM MEMORY, FULLY CONNECTED DEEP NEURAL NETWORKS - Patent application

PDF: 

http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/43455.pdf

タイトルの方は特許です。PDFは論文です。

複数のバラエティーがあるスピーチに対して認識をさせるためのものとして、CNN、LSTM、DNNの組み合わせを紹介しています。CLDNNという呼称を付けており、基本的な構造はConvolutional Layers => LSTM Layers => 全接続 Layersとなっています。英語のスピーチを学習データとして、CNN+LSTMのケース、LSTM+DNNのケースといった風に分析をかけています。

 

多言語、例えば、英語、ドイツ語、フランス語、日本語、中国語、韓国語などを同時に読み込ませ、そこから同時翻訳や文章予測に向けた解釈をするアルゴリズムができれば面白いなというのが、今回の調査のモチベーションでした。残念ながら該当する方法論に対する研究は見つけられませでしたが、近しいアプローチをしている方はそれなりにいるようです。いずれも「2016年」に何らかの動きがあるあたり、まさに今動いているテクノロジーという感じで興味深かったです。

 

自分自身でもロジックを組んでみようと思います。

 

Google Cloud Shellについて

Google Cloudには、Google Cloud Shellという、Shell環境がデフォルトで用意されています。

cloud.google.com

 

Google Cloudアカウントを開設すると、メニューバーからアクセスできるシェル環境で、Google Cloud SDK/gcloudがビルトインされていて便利です。

 

https://cloud.google.com/shell/docs/images/shell_icon.png

https://cloud.google.com/shell/docs/images/new-console.png

画像はgoogleより引用

 

以下、2016年07月26日の情報です。

基本的な特徴

* 一時的に利用できる仮想マシンインスタンスである。

* ブラウザベースでアクセスできるCLI環境

* 5GBの永続的ストレージが用意されている。

* Java,Go,Pythonなどの言語をサポートしている。

* Webプレビュー機能

* gcloudを利用する際の認証が済んでいる

* tmuxサポート

一時的に利用できる仮想マシンインスタンス

読んで字のごとくですが、一時的に利用できる仮想マシンです。コマンドラインボタンを押すと、プロビジョニングされ、新たなインスタンスを立ち上げています。自分のディレクトリ(/home/username/)の情報は、5GBの永続的ストレージから読み込まれているようで情報が保持されますが、cronは引き継がないようですので、別の仕組みを用意する必要がありそうです。

ブラウザベースでアクセスできるCLI環境

 Compute Engineと同様にブラウザからアクセスできます。macのシェルからアクセスする必要がなくなりました。

5GBの永続的ストレージ

Google Cloud Shell用に5GBのストレージが用意されています。 APIを叩く等の小さな管理作業をするためのスペースとしては十分だと思います。それ以上の作業をする場合は、別のストレージに展開することになります。

Java,Go,Pythonなどの言語をサポート

対応している言語はこちらにあります

https://cloud.google.com/shell/docs/features#language_support

Java,Go,Python(2系のみ),Node.js,Ruby,PHPです。同じページにサポートしているシェルやエディタの情報があり、シェルはsh, bash、エディタは、emacs,vim,nanoに対応しています。他、make, pip , git , docker , mysql clientに対応しています。管理系で必要なものはだいたい入っているという印象です。

https://cloud.google.com/shell/docs/features

Webプレビュー

Webアプリケーションのプレビューができるようです。Ruby on Railsなどではテストサーバーを立ち上げてローカルで動作を確認しますが、そういった機能だと思います。

gcloudを利用する際の認証が済んでいる

gcloudの認証ができているので、立ち上げたCompute Engineに直接アクセスできるようです。まだ試していません。

tmuxサポート

tmuxをサポートしています。tmuxは作業中のセッションを保存したり、画面を複数端末で見れて便利なシェルのユーティリティですが、インスタンス自体が一時的なので、セッション保存がどこまで活用できるかはやや不明です。まだ試していません。

 

Google Cloud Plathome上にTensorflowを展開する

Tensorflowを使いはじめて、はや4ヶ月。そろそろ手元のMacbookではマシンパワーがおぼつかないケースが出てきました。

既存のAWSDebianに入れようかとも考えましたが、せっかくなので、Google Cloud Plathomeを使うことにしました。

申し込みからコードの実行まで1.5時間ぐらいでした。以下、その記録です。

1. 申し込む

cloud.google.comから申し込みます。

cloud.google.com

既存のGoogleアカウントでログインしましたが、再度住所等の情報を入力しました。60日、$300分の無料クレジットがついてきます。クレジットカードの入力が必要です。

 

2. 利用する

チュートリアルが表示されます。ゲーミフィケーションのような流れです。pythonによるHello, Worldチュートリアルがあったので、それに従ってみたところ、Webアプリケーションができてしまいました。App Engineというアプリケーション用のクラウドプラットホームを使っていたようです。Herokuに似ています。Webアプリケーションを構築するのであれば魅力的ですが、今回は違うようです。

 

少し調べるとGoogle Prediction APIというものがありましたが、Tensorflowではないようです。また、Cloud Machine LearningというJupyter Notebookが利用できるものもありましたが、Limited Previewでした。GoogleのサイトでJupyter Notebookを用いたデモを見たことがあり、こちらも興味深いのですが、今回は対話形式は特に必要としておらず、cronなどによるスケジュールなどをしたかったので、こちらの利用も見送りました。

 

結局、AWSのEC2のような、VMを作るタイプのCompute Engineというものを使うことにしました。 割とスタンダードなクラウド環境です。CPUとメモリのサイズをカスタマイズできるので、CPU=8コア , メモリ=7.2GBを選択しました。メモリはこんなに必要ないのですが、どうやらこれが最小サイズのようです。時代ですね。

 

3. ログイン

Compute Engine上で作成したインスタンスへのアクセスはブラウザベースで行えます。SSHのアイコンをクリックすると、ブラウザ上にエミュレートされたターミナルが立ち上がります。AWSのkey pairと比べると簡単にアクセスできる一方で、益々googleアカウントの重要性が増すなと思いました。

 

Chromeを使っている場合(私がそうだったのですが)、ターミナル・プラグインのインストールを勧められます。これを利用することで、ほぼターミナルと遜色のない環境になります。

 

4.Tensorflowをインストールする

 ここから先は、おなじみの作業です。私はanacondaを使っているので、

www.continuum.io

Anacondaをダウンロードし、インストールします。

user$ wget http://repo.continuum.io/archive/Anaconda3-4.1.1-Linux-x86_64.sh
user$ chmod u+x Anaconda3-4.1.1-Linux-x86_64.sh
user$ ./Anaconda3-4.1.1-Linux-x86_64.sh

Cloud Plathomeで用意されたdebianはコンパクトなものでしたので、インストール途中でbzip2がないと警告を受けました。apt-get update、apt-get install bzip2したのち、再度anacondaを入れました。

root# apt-get update 
root# apt-get install bzip2

その後、tensorflowを以下を参考に入れます。

Download and Setup

といっても今回は環境切り分けを特にしないので、pip install --upgrade でおしまいです。 

user$ touch 

~/anaconda3/lib/python3.5/site-packages/easy-install.pth

user$ export TF_BINARY_URL=https://storage.googleapis.com/tensorflow/linux/cpu/tensorflow-0.9.0-cp35-cp35m-linux_x86_64.whl

user$ pip install --upgrade $TF_BINARY_URL

5. 実行

まずは単純にpythonのコードを実行するだけをしました。実行中にCPUの使用率を見ると、該当するプロセスの利用率がおおよそ230%と3コアしか利用できていませんでした。この辺りの指定の仕方は、もう少し調べようと思います。今回は、学習パラメータを複数持たせた結果を知りたかったので、4つのプロセスを同時に走らせました。

6. その他

ずうっとマシンリソースを使い続けるわけではないので、動的に仮想マシンを制御することになります。少し調べたところ、gcloudというツールで制御できるようです。

更に、プリエンプティブル VMという仮想マシンを利用することで、よりリーズナブルに利用できそうです。

cloud.google.com

 

データ分析の為にPandasを利用する その2

前回の記事では、Pandasの簡単な操作をしました。面白いのでもう少し続けてみます。

今度はcsvを2つ用意しました。

$ cat tmp01.csv 
,a,b,c
1,1,10,100
2,2,,200
3,4,30,300
$ cat tmp02.csv 
,d
1,3
3,9

まずは普通に読みます。

$ python
>>> import pandas as pd
>>> tmp_data01 = pd.read_csv("tmp01.csv")
>>> tmp_data01
   Unnamed: 0  a     b    c
0           1  1  10.0  100
1           2  2   NaN  200
2           3  4  30.0  300

先頭をインデックスとして読みます。

>>> tmp_data01 = pd.read_csv("tmp01.csv",index_col=0)
>>> tmp_data01
   a     b    c
1  1  10.0  100
2  2   NaN  200
3  4  30.0  300

欠損データを前のデータでパディングします。

>>> tmp_data01 = pd.read_csv("tmp01.csv",index_col=0).fillna(method="pad")
>>> tmp_data01
   a     b    c
1  1  10.0  100
2  2  10.0  200
3  4  30.0  300

tmp02を読みます。

>>> tmp_data02 = pd.read_csv("tmp02.csv",index_col=0)
>>> tmp_data02
   d
1  3
3  9

tmp01とtmp02をつなげます。http://pandas.pydata.org/pandas-docs/stable/merging.html を参考にしました。

>>> data = pd.concat([tmp_data01,tmp_data02],axis=1)
>>> data
   a     b    c    d
1  1  10.0  100  3.0
2  2  10.0  200  NaN
3  4  30.0  300  9.0

パディングではなく、線形補完してみます。

>>> data = pd.concat([tmp_data01,tmp_data02],axis=1).interpolate(method='linear')
>>> data
   a     b    c    d
1  1  10.0  100  3.0
2  2  10.0  200  6.0
3  4  30.0  300  9.0

1つだけくりぬいてみます

>>> a_data = data["a"]
>>> a_data
1    1
2    2
3    4
Name: a, dtype: int64

前項との和を計算します。

>>> a_plus_data = a_data + a_data.shift()
>>> a_plus_data
1    NaN
2    3.0
3    6.0
Name: a, dtype: float64

Logもとってみましょう。

>>> import numpy as np
>>> d_data = data["d"]
>>> d_data
1    3.0
2    6.0
3    9.0
Name: d, dtype: float64
>>> d_log_data = np.log(d_data/d_data.shift())
>>> d_log_data
1         NaN
2    0.693147
3    0.405465
Name: d, dtype: float64

便利ですね。

データ分析の為にPandasを利用する

Jupyter Notebookを使いたくて、Anacondaをインストールしたところ、データ分析の為のツールであるPandasもインストールされていたので使ってみました。存外便利でしたので、メモをとります。

 

以下のようなcsvファイルを用意しました。

$cat tmp.csv 
a,b,c
1,1,1
2,,2
3,3,3

pandaをimportして、csvファイルを読みます。

$ python
>>> import pandas as pd
>>> tmp_data = pd.read_csv("tmp.csv")
>>> tmp_data
   a    b  c
0  1  1.0  1
1  2  NaN  2
2  3  3.0  3

欠損データを前のデータでパディングしてみます。

>>> tmp_data = pd.read_csv("tmp.csv").fillna(method="pad")
>>> tmp_data
   a    b  c
0  1  1.0  1
1  2  1.0  2
2  3  3.0  3

fillna(0)でゼロパディングもできます。

describeでデータの数、平均値などの情報を取得します。

>>> tmp_data.describe()
         a         b    c
count  3.0  3.000000  3.0
mean   2.0  2.333333  2.0
std    1.0  1.154701  1.0
min    1.0  1.000000  1.0
25%    1.5  2.000000  1.5
50%    2.0  3.000000  2.0
75%    2.5  3.000000  2.5
max    3.0  3.000000  3.0
>>> 

その2では、もう少し複雑なことをやってみたいと思います。