Googleがエンジニア向け、医師向けそれぞれの専門誌に、機械学習によるAI(機械学習モデル)構築に関する2つの文献を投稿したことを明らかにした。自らの開発経験で得た知見について体系的にまとめており、今後のAI開発における一定の指針となりそうだ。
開発者向けには「それがどの医療課題を解決するのか」問う
GoogleはAI開発者のブログで、最近2つの専門誌に文献を投稿したことを明らかにした。Nature Materialsで公開されている「How to develop machine learning models for healthcare(リンク先は全文)」では、以下のAI(機械学習モデル)開発プロセス全てにおいて、Googleが実際の開発を通じて得られた知見をまとめている。
◯課題抽出
◯データ収集
◯機械学習モデルの開発
◯開発したモデルの検証、評価
◯開発したモデルの展開、運用中の管理
まず最初に、開発するAIがどの医療課題を解決するのかを見極めること、次に教師データの元となるベンチマークとする既存技術の選択を、医療関係者との緊密な連携で行うことをあげた。例えばGoogleが開発した糖尿病性眼疾患を眼底写真から検出するAIのケースでは、眼底写真を目視で検証する専門医の知見、生検データとの比較でトレーニングを行なったという。
また検証に使用するデータは、他の分野では一般的である、ランダムな分割のみでの母集団形成は不適切な可能性があり、人口統計、疾患サブタイブ別など、特性の違う複数の集団を用いるほうが適切であるという見解を示した。この段階でも、この検証が臨床で評価されるモデルと乖離していないか、確認することが必要だとしている。最後に臨床で展開するにあたっても、臨床でしっかりと使えるか、患者ケアへの影響を考慮することが必要であり、さらに規制当局の承認、想定外の事態に対応するための管理を続けなければならないとしている。
医師向けには「過学習に注意せよ」
JAMA(米国医師会雑誌)に投稿された「Users’ Guide to the Medical Literature: How to Read Articles that use Machine Learning」では、医師が機械学習モデルに関する文献を参照する際、そのモデルのパフォーマンスをどのように読み解き、信頼性を評価するかについて述べたという。文献では、まず以下の5つの視点で評価することが大切だと指摘する。
◯モデルを構築する際にベンチマークとした既存の診断基準、データなどが適切か
◯偽陽性と偽陰性両方の評価を見る
◯臨床医の診断結果との公正な比較がされているか
◯自身の専門分野に適用できそうか
◯患者ケアに有効か
さらにそのAI(機械学習モデル)が、過学習されていないか検討することも必要とした。具体的には、最終的な検証に用いられたデータセットが、トレーニング中に用いられたデータセットとまったく無関係であるかが非常に重要だとしている。
Googleはこれらの文書を投稿した理由について「AI(機械学習モデル)開発には医師と開発者の相互理解が必要であり、これらの文書がそれを促進し、最終的に患者ケアによい影響をもたらすことを期待している」と述べた。