ニューラル常微分方程式 / Neural Ordinary Differential Equations

昨年末にとても面白い論文を見つけましたので、合間の時間を見つけて読み進めています。

arxiv.org

この論文は、機械学習の分野でもっとも権威のある国際学会、NeurIPSにて2018年度に最優秀論文として評価されている論文です。
ミーハー心と興味本位で読み進めていましたが、読めば読むほど面白く読み応えのある論文です。

従来までのニューラルネットワークは、脳をモデルとして作られています。一見アナログ的ですが、数学的にはとてもデジタルな存在で、自然数個のノードを繋げてネットワークを構成しています。
近年のネットワークの層は年々ディープになり、2016年にMicrosoftから発表されたResNet(残差ネットワーク)は実に152層のノードから構成されています。

ResNetは勾配消失問題を解決し、より深い学習を可能にしましたが、一方で多くのメモリと多くの時間を要する存在になっていきました。
なにより、この152という数字には特別な意味はなく経験則的なアプローチから生み出された結果に過ぎません。
この曼荼羅のようなネットワークの状態をみて、どうにかならないものかと思った人も少なくないのではないかと思います。

ニューラル常微分方程式(Neural ODE)は、ここに対して非常に素晴らしいアプローチを提供しています。単純に数を増やすのではなく、デジタル的なネットワークの状態をアナログ化しているのです。イメージとしては今まで自然数で数えていたものを小数を含めて考えるアプローチに近いです。より正確にいうと離散化状態だったネットワークを連続的にします。

新しいネットワークの構造から比較すると、従来までのニューロンをベースに作られた概念の方が、むしろデジタルといいますか、カクカクとしたもののように見えてきます。そのぐらいネットワークの構造が滑らかに感じます。私の主観かもしれませんが、きっとそのように理解された方もいらっしゃると思います。

これによりニューラルネットワークの計算に常微分方程式(以下、ODE)ソルバーを導入することが可能になりました。最適化の手法に従来までのバックプロパゲーション(誤差逆伝搬法)ではなくアドジョイント法を用いているということも素晴らしいのですが、結果として解法ロジックを分離し、すでに研究しつくされた優秀なODEソルバーを採用すればよいという発想も素晴らしいと思います。

この構造変化の適応先はバラエティ豊かで、近年の画像処理の雄であるResNet、時系列処理の常識であるRNN(リカレントニューラルネットワーク)に加え、Glowで有名になった情報補完を可能にするNormalizing Flowへも適応できます。

メリットは以下のようなものがあります。
1) メモリが効率的
2) 最適な解法を選択可能
3) パラメータが効率的
4) スケーラブルで可逆的なNormalizing Flowを構築可能
5) 連続的な時系列モデルを実現可能

1のメモリ効率的はビジネス観点からみて有益です。ネットワークが複雑になる程、必要なメモリサイズが増えていかねばならず、高コストでした。また、現存するコンピュータの性能限界で計算できる範囲が限定されることもなくなるという意味でのメリットもあります。

2,3は最適な解法を選択可能,パラメータが効率的は機械学習システムを構築する上でのメリットです。特に2は目的に応じて最適なODEを選択できるようになるので、目的に応じて適切な機械学習手法が選択できるようになるはずです。

4,5は具体的な応用です。時系列モデルについては非常にわかりやすく、今までは自然数単位でしか解析できなかった情報が、連続化されることで任意の時間で取ることができるようになります。

以上がこの論文の概要になりますが、数学的なアプローチについても興味深いものが盛りだくさんですので、以後少しずつ書き進めていこうと思います。