QST（NICT，阪大）からのプレスリリース（2023.11.30）へのコメント

2023年12月5日 19:00

量子科学技術研究開発機構（QST）量子生命・医学部門量子生命科学研究所、情報通信研究機構（NICT）未来ICT研究所、大阪大学大学院生命機能研究科から発表された最近のプレスリリース

とメディア報道に対して、いくつかの懸念点があるため、ここに記載します。

論文について

主に最近のプレスリリースに対する懸念を述べたいと思いますが、論文自体に関する懸念についても触れておきます。より詳細な分析と専門家向けのコメントは、英語でのコメンタリーとして後日公表する予定です。

この論文は、間島慶さんを責任著者として執筆され、Neural Network誌に掲載されました。間島慶さんは私の研究室の元メンバーであり、共著者である他の二人も個人的に親交のある研究者です。私にとって、リスペクトする研究仲間の論文発表に対して批判的な意見を述べることは胃が痛む思いですが、これまでの個人的な対話では解決しない問題があり、これを放置すると研究分野全体に悪影響を及ぼす可能性があるため、やむを得ずこの場で指摘することにしました。この批判は個人的なものではなく、学問的な見解に基づいたものですので、その点を理解していただければ幸いです。下記のコメントは、研究室のメンバー、とくに、Fan Chengさん、白川健さん、田中美里さんによるレビューをベースにしています。

プレスリリースされている論文は、私の研究室の論文（ATR, 京都大学; プレプリント, 2017; Plos Computational Biology, 2019）にもとづいています。以下、Shen et al (2919)として言及します

間島さんは共著者として重要な貢献はしましたが、プロジェクトをリードした研究者ではありません。とくに、プレスリリースされた論文で扱っている想起イメージの実験や解析については、間島さんの貢献はほとんどなかったと記憶しています。当時の研究室メンバーの堀川友慈さん（現在、NTT コミュニケーション科学基礎研究所所属）が関連研究もゼロの状態から立ち上げたものです。

Shen et al.（2019）は、脳活動から深層ニューラルネットワーク（DNN）の画像特徴を介して、知覚内容と想起内容を画像として再現した論文です。この手法（Deep image reconstruction）により、これまで困難だった想起画像の再構成に初めて成功しました。ただし、その精度は低く、大まかな形しか再構成できていません。背景については、日本語のこちらのエッセーも参照してください。

間島論文では、われわれが公開したShen e al. (2019)のデータ・コードを使用して、画像特徴に加えて意味的特徴も活用して再構成することで、想起画像の再構成精度が大幅に改善されたと主張しています。後で詳しく述べますが、定量的な評価は、評価指標の妥当性のチェックが必要になります。視覚像再構成の目的は、知覚や想起に類似するものを生成することなので、まずは、目で見て似ているかを判断することが重要です。想起イメージの再構成画像は間島論文のFig 3, Supplementary Fig 8, 9 に示されています。下の図はSupple,etary Fig 9ですが、この中でTarget image（事前に見せて覚えさせた元画像）を正確に再構成しているもの（ours=間島論文）はあるでしょうか。

残念ながら、私には（研究室のメンバーにも）、大まかな形状以上に元画像を正確に再現しているものは見当たりません。報道発表で使用している以下の画像は、細かい部分も似ているように見える唯一の例です。しかし、動物のような顔が画像が出てくることはノイズを入れても一定の確率で起こることで、天井のシミを見て顔を知覚する「パレイドリア」の要素もありそうです。

従来は風景を見ているときの脳の信号を読み取って画像化、新技術は実際に見ていなくても、頭の中に思い浮かべた風景を復元。https://t.co/miz1ETbkS1

量研機構が生成AIを使ってディスプレーに復元する「世界初」の技術です。 pic.twitter.com/OaQ6ThPUfn
— 日本経済新聞電子版（日経電子版） (@nikkei) November 29, 2023

Shen et al.（2019）にくらべてより線的なパターンが現れていますが、それが当たることもあれば外れることもあります。ただ、奇妙なことに、上でShen et al.（2019）による再構成として表示されているものは、実際の論文のものとは異なります（手法に複数のオプションがあるので組み合わせが異なるということだと思いますが）。また、われわれがレポジトリで公開している標準ライブラリによる結果とも異なります。Shen et al. (2019)の結果をプレプリントで報告した2017年時点と比べて、前処理に違いがあるだけですが、想起データで改めて確認したところ、以下のように、形状はくっきり出るようになります（一行目が元画像、2−4行目が異なる被験者の結果）。色は相変わらず正確でありませんが。

Deep image reconstruction（Shen et al., 2019）による想起イメージの再構成。田中美里さん作成

したがって、間島論文の再構成画像はフェアな比較もできていないように思います。間島論文のコードが公開されれたら詳しく検証します。

間島論文では、精度を定量化するために、各再構成画像が元画像と他の画像のどちらに近いかを判別（同定）してその正答率を調べています。この同定解析は、Shen et al.（2019）では、人の評価者をによって同定してもらい80-90％の正答率が得られています（Fig 8）。

間島論文では、人による評価を行わずに、再構成画像を再びDNNに入れてDNN特徴の類似度に基づく同定解析を行っています。これは、人による評価にはコストがかかるため、簡便に評価を済ませるためにわれわれが別の論文Ho et al. (2023)で用いた手法で、あくまで人による評価の代替手法に過ぎません。また、間島論文では、画像生成時の評価関数に用いたのと同じDNNを用いて類似度を計算しており、評価指標の「二度漬け」になっています。そのためバイアスが生じている懸念があります。さらに、この2択の同定解析は、画像を大まかに分類するだけでも（たとえば、自然画像 vs. 人工的形状）チャンスレベルよりは高い値は出るので、再構成精度の評価という点ではかなり緩い指標であることにも注意が必要です。

ここでも奇妙なことに、間島論文の同定解析によりShen et al（2019）の評価結果が、チャンスレベル、すなわち、再構成画像から2つのうち一つを当てることすら全くできないという結果になっています。人が見れば80-90％当てられるわけですから、この代替指標に問題があるというのが自然な解釈でしょう。コードが公開されれたら詳しく検証します。

間島論文では、再構成画像の評価にはInceptionスコアも採用していますが、この指標は、生成画像群の多様性と自然さを評価するもので、元画像と対応していなくても高い値がでます。これを元に再構成精度が向上したとするのは不適切です。

また、間島論文では新しいベイズの枠組みを提案したと主張していますが、実際のデータ分析ではShen et al.（2019）の枠組みの中で、最適化アルゴリCLIPというDNNの意味特徴を反映させたただけです。ベイズ的に言い換えただけで、新しいアプローチを構成しているようには見えません。

CLIP特徴を取り入れたことが成功のポイントであると主張していますが、Fig 7にある彼ら自身の定量的な評価では、CLIP特徴の有無で精度はあまり影響を受けないことを示しています（上述したように、この評価指標自体が不適切である点にも注意が必要）。もし仮に意味的特徴が有用だとしても、それは言語的なイメージと対応するものかもしれず、視覚イメージの内容を読み出すという本来の目的とは異なる現象を捉えている可能性があります。

言語的な特徴を用いて画像を再構成する試みには他にも注意が必要です。私の研究室の白川健さんが中心となってこの問題の検証を進めています。

Recent studies have shown photorealistic reconstructions from fMRI data using CLIP/diffusion models and the NSD dataset (Left). We evaluated the methods on the Deeprecon dataset (Shen+ 2017/19) with added annotations, but found the results not so impressive ( Right). pic.twitter.com/KPgdA6Eolo
— しらけん (@kencan7749) July 4, 2023

率直な感想として、主張をサポートするための信頼性の高いエビデンスがないという印象を持ちました。査読が機能しなかったのだと思います。最近は、AIやコンピュータビジョンなど神経科学以外の分野でも、脳データを使った再構成の研究発表が増えています。残念なことに、トップカンファレンス・トップジャーナルであっても、まともな査読を受けたとは思えない、見せかけの再構成論文が多数見られます。われわれが啓蒙・改善していくべき課題です。しかし、完璧な論文や査読というものはないことも忘れてはいけません。まだ本当かどうかよくわからないことを専門家が議論する場が学会やジャーナルです。根拠の乏しい論文が出ること自体はある程度許容すべきでしょう。しかし、根拠の乏しい研究成果を、専門家集団で吟味せずに一般の人に直接大発見であるかのようにアピールすることに対しては、厳しい目を向ける必要があると考えます。

QSTのプレスリリースについて

上記の内容を踏まえ、プレスリリースをチェックしていきます。日本において研究者が直接プレスリリースの内容を作成するケースが多いことは理解していますが、通常は研究機関が公式に発表する形を取っていますので、その観点からコメントします。また、私はShen et al. (2019)に責任著者として関わっておりますので、その点については私の意見にバイアスが存在する可能性があります。その点を考慮し、適宜判断していただければと思います。