LSTM/RNNとCNNの組み合わせ

複数言語の同時解釈への応用の観点から、以前からLSTM(もしくは単にRNN)とCNNの組み合わせについて興味がありましたので、調べました。3つほどそれらしい論文があったのでメモを取ります。

 

1. 画像認識と画像抽出のためのLong-term Reccurent Convolution Networks

[1411.4389] Long-term Recurrent Convolutional Networks for Visual Recognition and Description

PDFはこちら: https://arxiv.org/pdf/1411.4389.pdf

動画が対象になっています。動画は、基本的には画像なので、CNNによる処理が有効です。また、連続的なものですから、LSTMが関わってきます。基本的なアプローチはCNNをかけた後、LSTMで処理するモデルです。以下の3つのモデルが紹介されていました。

1)連続的な入力に対して、単一の意味を出力するモデル(動画から「走高跳び」と出力する)

2)単一の入力に対して、連続的な出力をするモデル(静止画から「人」「が」「走っている」と出力する)

3)連続的な入力に対して、連続的な出力をするモデル(動画から「人」「が」「高く」「飛んだ」と出力する)

3はCNNではなくCRFを使っていました。


2. 複数ラベルによる画像分類のための統合フレームワーク

[1604.04573] CNN-RNN: A Unified Framework for Multi-label Image Classification

PDF: https://arxiv.org/pdf/1604.04573.pdf

単一の画像に複数のラベル付けをするためのフレームワークとして、CNNにLSTMの概念を追加しているようですが、すみません、なぜLSTMを追加することで複数のラベルを扱えるようになっているかはあまりわかっていないです。

 

3. CONVOLUTIONAL, LONG SHORT-TERM MEMORY, FULLY CONNECTED DEEP NEURAL NETWORKS

CONVOLUTIONAL, LONG SHORT-TERM MEMORY, FULLY CONNECTED DEEP NEURAL NETWORKS - Patent application

PDF: 

http://static.googleusercontent.com/media/research.google.com/ja//pubs/archive/43455.pdf

タイトルの方は特許です。PDFは論文です。

複数のバラエティーがあるスピーチに対して認識をさせるためのものとして、CNN、LSTM、DNNの組み合わせを紹介しています。CLDNNという呼称を付けており、基本的な構造はConvolutional Layers => LSTM Layers => 全接続 Layersとなっています。英語のスピーチを学習データとして、CNN+LSTMのケース、LSTM+DNNのケースといった風に分析をかけています。

 

多言語、例えば、英語、ドイツ語、フランス語、日本語、中国語、韓国語などを同時に読み込ませ、そこから同時翻訳や文章予測に向けた解釈をするアルゴリズムができれば面白いなというのが、今回の調査のモチベーションでした。残念ながら該当する方法論に対する研究は見つけられませでしたが、近しいアプローチをしている方はそれなりにいるようです。いずれも「2016年」に何らかの動きがあるあたり、まさに今動いているテクノロジーという感じで興味深かったです。

 

自分自身でもロジックを組んでみようと思います。