実在しない人物の写真を生成するシステムを構築するためのコストについて StyleGANから

StyleGANとこの記事の目的

ほぼ1年前の話題になりますが、GPUで有名な半導体メーカーである NVIDIA の研究として、StyleGANというものが発表され、話題になりました。

記事
gigazine.net

動画解説
www.youtube.com

技術的な情報
qiita.com

2012年に「Googleの猫」が登場してから技術者の間で意識されていた、機械学習によるリアルな画像描写が可能となり、メリットとして肖像権を意識しない画像の生成が可能になる一方で、デメリットとしてフェイク画像によるネットメディアの信憑性の低下が現実のものとなりそうだなと思ったものです。

少し調べてみることで、この定性的な評価に対して、応用範囲の幅と定量的な評価がラフにできましたので記事にします。

最新のStyleGAN

githubを追いかけたところ、Ver2に更新されて、StyleGAN2なるものが存在していました。こちらは、TensorFlowによるStyleGANの実装です。

github.com

ReadMeには、学習にかかるリソースの評価や実際に生成された画像へのリンクがあり、ここから更に詳細な評価ができます。

人の顔以外の画像

リンク先に、Google Driverがあり、ここには人の顔以外に、車、馬、猫、教会などの生成データを見ることができます。
curated-images - Google ドライブ


drive.google.com
足元などでおぼつかないところもありますが、ほぼ表現できていると思います。


drive.google.com
こちらがティピカルな例だと思うのですが、実物だと見せるにはもう少し時間がかかる印象です。

商用レベル、例えば、AdobeのStock Photoの中で販売するというという意味合いで考えると、人物については販売可能性があるようですが、車などになるともう少しという状況だと思います。
stock.adobe.com

コスト

コストについては、人の顔(Flickerというサイトの高品質画像)で1024x1024の画質の構成を考えたとき、NVIDIA DGX-1 with 8 Tesla V100 GPUsを用いて、8 GPUでの演算をすると、9日と18時間かかるとあります。
NVIDIAのV100 GPUGoogleクラウドサービスで借りた場合、1時間あたりのGPU毎のコストは、一時間あたり$2.48USDのようです。
GPU の料金  |  Compute Engine ドキュメント  |  Google Cloud

2.48USD x 8 GPU x (9日x24時間 + 18時間) =4642.56USDとなります。1ドルあたり109円と考えると、505,039円、つまりおおよそ50万円となります。
言い換えれば、各対象(人、車、猫)などに対して、1024x1024の画像生成をするために必要な時間とコストは、管理費などを除いて 10日と50万円となります。
(別の設定では、5日6時間という内容もありますが、ここは控えめに見て)

ただし、実用的なレベルという意味ですと、もう少し高い解像度の画像が必要です。

PCの解像度は、最近のノートPCですと1980x1024ぐらいが一般的です。高解像度という意味では、4000x4000ぐらいの解像度があればいいのではないでしょうか。
(それ以上の場合、別の機械学習を用いて、高解像度化するという手法もあると思います)
1辺あたりの大きさが四分の一の256x256の場合、同等の分析が4日と18時間という結果がありますので、逆算すると、10日/50万円と倍のコストが掛かると考えられます。
十分なデータセットがあることが前提であり、データを揃えることは面倒な作業ではありますが、これを除けば、

各オブジェクトに対して、有効性を確認するためのコストが 10日 , 50万円
それを商用化するために、必要なコストが 20日, 100万円

と見ることができるのではないでしょうか。

まとめ

StyleGANについての現状を確認しました。システム生成に必要なコストは1要素あたり10日 50万であり、実用化には更に倍のコストが掛かることがわかりました。
対象となるオブジェクトについては、収集できた画像の質次第ではあると思いますが、必ずしもうまくいくとは限らず、ここはリスクを持つのが現状だと思います。
ただ、一旦うまく行けば、商用化することが可能なのではないかと言うのが、現段階での印象です。

コストについては、GPUの性能向上が進めば、より廉価に展開できるのではないでしょうか?
ムーアの法則がまだ活きているのであれば、数年もすると個人が手が出せるレベルのコストで自動生成することが可能になることが予想できます。

法制度やビジネススキームの整備もありますが、画像生成によるメリット・デメリットが社会に及ぼす影響については、控えめに見て、ここ5-10年ぐらいで検討すべき議題になるだろうと感じました。
あるいは、もう少し早くても違和感がないかもしれません。