QST(NICT, 阪大)からのプレスリリース(2023.11.30)へのコメント

量子科学技術研究開発機構(QST)量子生命・医学部門 量子生命科学研究所、情報通信研究機構(NICT)未来ICT研究所、大阪大学大学院生命機能研究科から発表された最近のプレスリリース

とメディア報道に対して、いくつかの懸念点があるため、ここに記載します。

論文について

主に最近のプレスリリースに対する懸念を述べたいと思いますが、論文自体に関する懸念についても触れておきます。より詳細な分析と専門家向けのコメントは、英語でのコメンタリーとして後日公表する予定です。

この論文は、間島 慶さんを責任著者として執筆され、Neural Network誌に掲載されました。間島 慶さんは私の研究室の元メンバーであり、共著者である他の二人も個人的に親交のある研究者です。私にとって、リスペクトする研究仲間の論文発表に対して批判的な意見を述べることは胃が痛む思いですが、これまでの個人的な対話では解決しない問題があり、これを放置すると研究分野全体に悪影響を及ぼす可能性があるため、やむを得ずこの場で指摘することにしました。この批判は個人的なものではなく、学問的な見解に基づいたものですので、その点を理解していただければ幸いです。下記のコメントは、研究室のメンバー、とくに、Fan Chengさん、白川健さん、田中美里さんによるレビューをベースにしています。

プレスリリースされている論文は、私の研究室の論文(ATR, 京都大学; プレプリント, 2017; Plos Computational Biology, 2019)にもとづいています。以下、Shen et al (2919)として言及します

間島さんは共著者として重要な貢献はしましたが、プロジェクトをリードした研究者ではありません。とくに、プレスリリースされた論文で扱っている想起イメージの実験や解析については、間島さんの貢献はほとんどなかったと記憶しています。当時の研究室メンバーの堀川友慈さん(現在、NTT コミュニケーション科学基礎研究所所属)が関連研究もゼロの状態から立ち上げたものです。

Shen et al.(2019)は、脳活動から深層ニューラルネットワーク(DNN)の画像特徴を介して、知覚内容と想起内容を画像として再現した論文です。この手法(Deep image reconstruction)により、これまで困難だった想起画像の再構成に初めて成功しました。ただし、その精度は低く、大まかな形しか再構成できていません。背景については、日本語のこちらのエッセーも参照してください。

間島論文では、われわれが公開したShen e al. (2019)のデータ・コードを使用して、画像特徴に加えて意味的特徴も活用して再構成することで、想起画像の再構成精度が大幅に改善されたと主張しています。後で詳しく述べますが、定量的な評価は、評価指標の妥当性のチェックが必要になります。視覚像再構成の目的は、知覚や想起に類似するものを生成することなので、まずは、目で見て似ているかを判断することが重要です。想起イメージの再構成画像は間島論文のFig 3, Supplementary Fig 8, 9 に示されています。下の図はSupple,etary Fig 9ですが、この中でTarget image(事前に見せて覚えさせた元画像)を正確に再構成しているもの(ours=間島論文)はあるでしょうか。

残念ながら、私には(研究室のメンバーにも)、大まかな形状以上に元画像を正確に再現しているものは見当たりません。報道発表で使用している以下の画像は、細かい部分も似ているように見える唯一の例です。しかし、動物のような顔が画像が出てくることはノイズを入れても一定の確率で起こることで、天井のシミを見て顔を知覚する「パレイドリア」の要素もありそうです。

Shen et al.(2019)にくらべてより線的なパターンが現れていますが、それが当たることもあれば外れることもあります。ただ、奇妙なことに、上でShen et al.(2019)による再構成として表示されているものは、実際の論文のものとは異なります(手法に複数のオプションがあるので組み合わせが異なるということだと思いますが)。また、われわれがレポジトリで公開している標準ライブラリによる結果とも異なります。Shen et al. (2019)の結果をプレプリントで報告した2017年時点と比べて、前処理に違いがあるだけですが、想起データで改めて確認したところ、以下のように、形状はくっきり出るようになります(一行目が元画像、2−4行目が異なる被験者の結果)。色は相変わらず正確でありませんが。

Deep image reconstruction(Shen et al., 2019)による想起イメージの再構成。田中美里さん作成

したがって、間島論文の再構成画像はフェアな比較もできていないように思います。間島論文のコードが公開されれたら詳しく検証します。

間島論文では、精度を定量化するために、各再構成画像が元画像と他の画像のどちらに近いかを判別(同定)してその正答率を調べています。この同定解析は、Shen et al.(2019)では、人の評価者をによって同定してもらい80-90%の正答率が得られています(Fig 8)。

間島論文では、人による評価を行わずに、再構成画像を再びDNNに入れてDNN特徴の類似度に基づく同定解析を行っています。これは、人による評価にはコストがかかるため、簡便に評価を済ませるためにわれわれが別の論文Ho et al. (2023)で用いた手法で、あくまで人による評価の代替手法に過ぎません。また、間島論文では、画像生成時の評価関数に用いたのと同じDNNを用いて類似度を計算しており、評価指標の「二度漬け」になっています。そのためバイアスが生じている懸念があります。さらに、この2択の同定解析は、画像を大まかに分類するだけでも(たとえば、自然画像 vs. 人工的形状)チャンスレベルよりは高い値は出るので、再構成精度の評価という点ではかなり緩い指標であることにも注意が必要です。

ここでも奇妙なことに、間島論文の同定解析によりShen et al(2019)の評価結果が、チャンスレベル、すなわち、再構成画像から2つのうち一つを当てることすら全くできないという結果になっています。人が見れば80-90%当てられるわけですから、この代替指標に問題があるというのが自然な解釈でしょう。コードが公開されれたら詳しく検証します。

間島論文では、再構成画像の評価にはInceptionスコアも採用していますが、この指標は、生成画像群の多様性と自然さを評価するもので、元画像と対応していなくても高い値がでます。これを元に再構成精度が向上したとするのは不適切です。

また、間島論文では新しいベイズの枠組みを提案したと主張していますが、実際のデータ分析ではShen et al.(2019)の枠組みの中で、最適化アルゴリCLIPというDNNの意味特徴を反映させたただけです。ベイズ的に言い換えただけで、新しいアプローチを構成しているようには見えません。

CLIP特徴を取り入れたことが成功のポイントであると主張していますが、Fig 7にある彼ら自身の定量的な評価では、CLIP特徴の有無で精度はあまり影響を受けないことを示しています(上述したように、この評価指標自体が不適切である点にも注意が必要)。もし仮に意味的特徴が有用だとしても、それは言語的なイメージと対応するものかもしれず、視覚イメージの内容を読み出すという本来の目的とは異なる現象を捉えている可能性があります。

言語的な特徴を用いて画像を再構成する試みには他にも注意が必要です。私の研究室の白川 健さんが中心となってこの問題の検証を進めています。

率直な感想として、主張をサポートするための信頼性の高いエビデンスがないという印象を持ちました。査読が機能しなかったのだと思います。最近は、AIやコンピュータビジョンなど神経科学以外の分野でも、脳データを使った再構成の研究発表が増えています。残念なことに、トップカンファレンス・トップジャーナルであっても、まともな査読を受けたとは思えない、見せかけの再構成論文が多数見られます。われわれが啓蒙・改善していくべき課題です。しかし、完璧な論文や査読というものはないことも忘れてはいけません。まだ本当かどうかよくわからないことを専門家が議論する場が学会やジャーナルです。根拠の乏しい論文が出ること自体はある程度許容すべきでしょう。しかし、根拠の乏しい研究成果を、専門家集団で吟味せずに一般の人に直接大発見であるかのようにアピールすることに対しては、厳しい目を向ける必要があると考えます。

QSTのプレスリリースについて

上記の内容を踏まえ、プレスリリースをチェックしていきます。日本において研究者が直接プレスリリースの内容を作成するケースが多いことは理解していますが、通常は研究機関が公式に発表する形を取っていますので、その観点からコメントします。また、私はShen et al. (2019)に責任著者として関わっておりますので、その点については私の意見にバイアスが存在する可能性があります。その点を考慮し、適宜判断していただければと思います。

タイトル

心に描いた風景を脳信号から復元!~生成系AIと数理的手法を用いた新たな技術を開発~

https://www.qst.go.jp/site/press/20221130.html

想起イメージを生成AIと数理的手法を用いて復元することを初めて実現したかのように読め、ミスリーディングです。風景の想起イメージを再構成したと言えるようなエビデンスは論文に見当たりません。

ポイント

この「脳信号翻訳機」を用いて、被験者が画像を心に思い浮かべた時の脳信号から視覚的特徴を割り出し、その特徴をとらえた自然な画像に徐々に近づくよう生成系AI2)に描画させることで、心に描いた画像を復元することに世界で初めて成功。

https://www.qst.go.jp/site/press/20221130.html

「世界で初めて成功」の前の部分は、Shen et al (2019)の説明になっています。これがなぜ、QST(NICT, 阪大)が世界で初めて成功したことになるのでしょう。

概要

人が心の中で思い描いた任意の風景・物体などの「メンタルイメージ」を脳信号から読み出し、復元することに成功しました。

https://www.qst.go.jp/site/press/20221130.html

この手法を用いて、画像の種類を限定することなく、人が心の中に思い描いたイメージを復元することに世界で初めて成功しました。

https://www.qst.go.jp/site/press/20221130.html

上で示したように、このようなことに成功していません。

本研究は、文部科学省 光・量子飛躍フラッグシッププログラム(Q-LEAP)(JPMXS0120330644)、科学研究費補助金 若手研究(20K16465)、科学技術振興機構(JST) さきがけ(JPMJPR2128)、CREST(JPMJCR18A5及びJPMJCR22P3)、ERATO(JPMJER1801)の支援を受けて行われました。

https://www.qst.go.jp/site/press/20221130.html

既存のデータと手法を用い、評価関数の一部を変更した研究にこれだけの予算が必要だったのでしょうか。各ファンドについて、このプレスリリースと同様の誇張した報告が行われていないか、また、報告によって誤った評価が行われていないかチェックする必要があるかもしれません。

本研究成果の概略図

本成果の研究の手法をまとめた図

https://www.qst.go.jp/site/press/20221130.html

図のほとんどが、Shen et al. (2019)の説明です。

独自に工夫した点はココ!

https://www.qst.go.jp/site/press/20221130.html

これも、Shen et al. (2019)の説明で、独自性のある部分ではありません。

研究の背景と目的

新手法では従来法と比べ、視覚画像、メンタルイメージ、双方ともに復元精度が上がっていることがわかる

https://www.qst.go.jp/site/press/20221130.html

プレスリリースで示されている再構成画像の例は、論文の結果の代表的な例にはなっていません。チェリーピックされているように見えます。上述のように、Shen et al. (2019)からの例がどのように選ばれたか謎で、フェアな比較になっているのか不明です。これらの例で、細かいパターンが生成されていることは確認できますが、それが正しいパターンなのか判断は難しいです。

本研究では、2019年に報告された研究[出典1]で取得したデータを用いました。また、本データの取得にあたっては、事前に全ての被験者から実験協力への同意(インフォームドコンセント)を得ています。

https://www.qst.go.jp/site/press/20221130.html

自分たちが過去に取得したデータを使っているかのように書かれていますが、間島さんが私の研究室に所属していたときに一部のデータの取得に関与した以外、論文の著者は実験に貢献していません。QST、NICT、 阪大の施設やリソースは一切使用していません。

研究の手法と成果

ここでの記述も大部分が、Shen et al. (2019)の説明です。

その結果、従来法[出典1]による復元画像の場合の正解率は50.3%、つまり復元した画像が全くヒントにならなかったのに対し、新手法では75.6%と有意に高い正解率が得られ、復元した画像が元画像の特徴を表していることが示されました。

https://www.qst.go.jp/site/press/20221130.html

上述の通り、これはShen et al. (2019)の結果と整合性がなく、評価指標自体の妥当性が問われます。人が見れば80−90%当てられることが示されているのに、「全くヒントにならない」結果となる指標を使う妥当性はあるでしょうか。

プレスリリースとは

根拠の乏しい論文を出すこと以上に、根拠の乏しい成果を一般の人にアピールすることの方が問題であると上で述べました。誇張されたプレスリリースは、多くの人に誤った情報を植え付けるリスクがあり、これが政策やビジネスの誤った方針を導く可能性があります。これは税金の無駄遣いにつながり、社会からの信頼を損なうことになりかねません。さらに、信頼性の高い研究を行っている研究者への資金やポジションの配分が不十分になり、アカデミア全体の腐敗を招く恐れもあります。何よりも深刻なのは、研究者自身が自分の研究や専門分野に対する誇りややりがいを失ってしまうことです。これらの点に関連して、最近、新聞のインタビューを受けました。

以前このようなことも書きました。

研究環境はきびいしい。研究の重要性を社会に理解してもらい、環境改善をの必要性を訴えていくことは大事。しかし、社会の信頼を得られるような研究を実践してきたか? とくに神経科学は、「心を理解する」、「精神疾患の解明・治療」など、誰もその重要性は否定できないお題目を掲げ、研究費的には優遇されてきた。その期待に応えてきたか?

派手にプレスリリースされる研究は、中身は怪しいものが多い。研究者が組織や研究環境を維持するために「自己宣伝」することを一般の人も認識している。一部の大学、ファンディング機関のプレスリリースは「フェイクニュース」の代名詞化している。「まだ新しい学問だから」「in its infancy」とか言って自己欺瞞を続けてきた結果、成熟した学問になれず、自己宣伝や(QRPsにも?)に依存するようになってないか。

実験データ解析再入門:論文を「フェイクニュース」にしないために

神経科学は比較的新しい分野であり、伝統的な大学の専攻区分ではまだ十分な位置を確保していないのが現状です。この背景から、QSTやNICT(CiNet)のような国立研究機関が神経科学の研究と教育において重要な役割を担ってきました。これらの機関は国の政策に影響されやすく、霞が関や政治家にアピールできる目立つ研究を通じて予算を確保することが行われてきました。国の大型研究費の配分を担う省庁の担当者や審査する「有識者」、また、研究機関の上層部がいとも簡単に、研究者のセールストークとメディア受けした「実績」に騙されるのを数多く見てきました。

私自身も、100%外部資金に依存するATRでの研究経験から、研究成果のアピールの必要性は十分に理解しています。しかし、過去の行動を振り返ると、その方法について忸怩たる思いを持つこともあります。やはり科学研究は、長期的な視点と真摯な探究心を持って進めるべきです。研究機関としては、短期的な成果やメディアの注目に惑わされず、着実な進歩を目指すことができる環境を確保していただきたいです。


(2024.4.19)追記

いまだに、コードは公開されていません。githubのページだけあります。

The codes for our proposed reconstruction framework will be available at our GitHub repository (https://github.com/nkmjm/mental_img_recon) soon after the publication of the journal version of this article.

https://doi.org/10.1016/j.neunet.2023.11.024

と、論文でも公開が約束されているのですが