Googleの画像評価技術「NIMA」─あるいは写真の美の基準について

GoogleのNIMAについて
感想

GoogleのNIMAについて

写真の評価について

　この間、ネットサーフィンをしていたところ、興味深い記事を見つけたので紹介します。Googleが、写真の質について判断できるAIを開発したという記事です。

Research Blog: Introducing NIMA: Neural Image Assessment

ここのコメント欄に、GoogleによるNIMAとはなんぞや、という紹介があったので引用しますね。

Learn about Neural Image Assessment (NIMA), a deep CNN that is trained to rate the technical and aesthetic qualities of an image, scoring them reliably and with high correlation to human perception. Oh, and it can be used to enhance images too!

(ニューラル画像評価(NIMA)について知ろう。NIMAとは、写真の技術的及び美的クオリティを評価するディープ畳み込みニューラルネットワークで、確実にかつ人間の認識と高い相関を有する形で点数をつける。おお、写真をより良くするためにも使えるんだ！)

　つまり、写真の技術力や美しさが、NIMAというAIにはわかってしまうということみたいですね。具体例として、Googleは以下の画像を示しています。

Research Blog: Introducing NIMA: Neural Image Assessment

　NIMAは、上記のような画像の技術的・美的クオリティに応じて、1~10の点数を付けます。それぞれの写真下にある左の数字がNIMAが予測した数値で、()の中が、アマチュア写真家達が付けた点数みたいです。*1 つまり、アマチュア写真家が技術的に良い、美しいと思った写真は高く評価し、逆ならば低く評価する、ということができるようになったみたいですね。

　また、NIMAは写真のゆがみ等による質の変化についても分析できるみたいです。

Research Blog: Introducing NIMA: Neural Image Assessment

　ただ、上記の写真はあくまでGoogleが選んだ例です。気になるのは、実際どれくらいの精度で写真家の評価とＮＩＭＡの数字が一致するのかという点。これについては、NIMAについての論文の中で、中央値(mean)の線形相関係数(LCC)が0.6程度ということみたいです。*2 統計には全然詳しくないのですが、相関係数が0.6だと、事例にはよりますが、弱い相関があるということで良いみたいですね。*3

写真の改善について

　また、NIMAによって、写真の評価値を上げる＝写真を技術的、美的に良くすることが可能になります。

Research Blog: Introducing NIMA: Neural Image Assessment

　全体的に、コントラストと彩度が上がって、より被写体の特徴がとらえやすくなっているようにも見えますね。

まとめ

　総合的にみると、NIMAはコントラストや彩度が高めな写真を好んでいるようにも思えます。また、使われているのがCNNであることを考えると、カプセルネットワークのように写真の各要素の位置関係を把握して評価しているわけではありませんから、そこまで構図は重要視していないのかもしれません。

感想

　最初、ＡＩによって写真の美しさを判断するなんて、話を聞いた段階では不可能じゃないかと思いました。そもそも、美しさなんて主観的な要素を多分に含むものであって、AI自体が美しさを発見するなんてことは、不可能だろうと。

　でも、今回のGoogleのNIMAは、アマチュア写真家に採点させたスコアを教師データとしてＡＩに学習させることで、AIに写真の評価をさせることを可能としました。実際、Googleの挙げた上記の例を見ると、大体自分が綺麗だなと思った順番に評価されていて驚きました。構図よりも、彩度やコントラストが重視されがちな気がしますけれど、それにしてもすごいなと思います。結局、アマチュア写真家の評価と自分の評価が、それなりに似ている、ということなのでしょうね。

　人間が何を美しいと思うかの基準については、生得的なものと学習によって得たものがあると考えられます。前者について言えば、人間は生得的に対称性があるもの(e.g. 左右対称)を好むことが挙げられます。後者について言えば、例えば平安時代のおしろいを塗った美人を現代の人が見ても、そこまで美しいと思わない、というものがあります。

　結局、人間を基準として学習させている以上、各人が生得的に有している、普遍的な美しさの基準については、AIにもかなり学習させられるような気がします。言い換えれば、人類の脳が生まれながらに美しいと思うものについては、大量のサンプルさえ用意すれば学習させられそうです。上記の例の中でも、にじんでいたり、ノイズが載っている写真を美しいと思わないのは、生得的なものであるようにも思えます。もしかしたら、彩度やコントラストが高めの写真を好むというのも、人間の脳が生得的に好むものなのかもしれません(どちらとも根拠のない推測ですが。)

　しかし、人が後天的に得た美の基準については、そもそも絶対的な基準がない以上、AIに学習させるというのは、将来的にも難しいのではないでしょうか。特に、新たに美しいと思うような表現を評価するのは、AIには荷が重いと言うほかないでしょうね。写真家の方々が新たな発想で撮った綺麗な写真であるとか。その部分については、まだまだ人間の仕事は多そうです。

　今回のNIMAの研究によって、どのように実社会に影響が及ぶかと考えてみると、将来Google Photoのサービスに組み込んで、写真の選別を手伝ってくれたり、ボタン1つで写真を綺麗にしてくれる、といったことをやってくれるのではないかと、勝手に期待しています。

　ますます、写真ライフが便利で楽しくなりそうですね。

*1:https://arxiv.org/pdf/1709.05424.pdf 7頁の図7参照

*2:https://arxiv.org/pdf/1709.05424.pdf 6頁表1

*3:Minitab ニュースレター | 統計解析ソフト Minitab | 構造計画研究所