説明可能な病理診断のAIモデルを開発、間質性肺炎の判別能大幅向上 長崎大と産総研
医療分野におけるAI(人工知能)の判別根拠の「説明性」確立が課題になっているが、長崎大と産業技術総合研究所(産総研)の研究グループが、従来方式でアルゴリズムを構築した後に、専門医が補正を加えるかたちでブラッシュアップすることで精度向上と説明性の両方を担保する新しいAIモデルを開発した。このモデルで通常型間質性肺炎の画像診断を行ったところ、判別能において従来方式より大幅な精度向上が見られたという。
最後に専門医が補正する「MIXTURE」モデルを開発
研究成果を発表したのは、長崎大学大学院医歯薬学総合研究科(研究プロジェクト代表:福岡順也)と産総研人工知能研究センター(研究プロジェクト代表:坂無英徳)の研究チーム。病理診断を始めとした医療分野へのAIの応用には、判別能の高さはもとより、その根拠の提示も求められる。画像認識においては現在、その精度の高さから「深層畳み込みニューラルネットワーク(Deep Convolutional Neural Network; DCNN)」が主流のアルゴリズムとなっているが、DCNNは高い予測性能が得られる一方、根拠提示が分かりづらく「ブラックボックス」と表現されることも多い。この課題は広く認識され、各国で「説明可能な人工知能モデル」に関する研究開発が進んでいるが、精度と説明性を両立させることは非常に難しいとされている。
そこで研究チームではこの2つを両立させるため、いったんコンピュータにアルゴリズムを構築させ、その後専門医が経験や専門知識に基づき、診断に影響を与えない着眼点を除いたり、見た目では異なっていても同じ現象を表す特徴量を統合したりすることで、AIモデルに医学的な知見を反映させる手法を導入した。チームではこれをMIXTURE(huMan In-the-loop eXplainable artificial intelligence Using REcurrent training)と名付け、肺炎標本の後ろ向きの病理診断研究を行い、その判別能の検証を行った。
具体的には、間質性肺炎の診断と鑑別を課題として、まず通常型間質性肺炎と中心として類似する疾患8つと診断された、2009年から2020年までの250例弱の標本をベースとする教師データを作成。データとしては2.5倍、5倍、および20倍の倍率で重複しない280×280ピクセルの画像に分割再構成したのち、それぞれの倍率ごとに畳み込みニューラルネットワーク(CNN)で学習させた。学習の結果、それぞれの疾患として分類された画像を2人の専門医がレビューし、その知見に基づいて分類結果を補正した。また対照群として、専門医による補正を行わずにそのまま構築したアルゴリズムも開発。この2つのAIモデルを、通常型間質性肺炎※1の診断に絞って判別能を比較した。
結果、人工知能技術の精度指標の一つであるAUROC (Area Under the Receiver Operating Characteristic curve)※2において、開発したAIモデル「MIXTURE」が対照群と比べて0.27ポイント(約42%)優れていることが確認された。研究チームはこの成果について、病理画像で通常型間質性肺炎を高精度に予測できる世界初のAIモデルであり、開発したAIモデルは胸膜実質性線維弾性症やNSIPなどの他の間質性肺炎にも応用できるとしている。なお、研究成果はNature学術誌グループである「Modern Pathology」に掲載された。
※1 通常型間質性肺炎
肺の炎症性疾患である間質性肺炎のうち、とくに病変の悪化が速く、高い致死率を示すグループ。近年このようなパターンを示し、原因が不明の疾患(「特発性肺線維症」という)をターゲットとする抗線維化薬が承認された。一方で、その他の間質性肺炎の治療に一般的に使用されるステロイドや免疫抑制剤は、通常型間質性肺炎の病変の悪化を加速することが示され、治療方針が全く異なる。このため、治療方針の選択の上でも正確な病理診断が重要であるが、通常型間質性肺炎の病理診断には高い専門性が要求され、診断の正確性が課題となっている。
※2 AUROC
Area Under the Receiver Operating Characteristic curve。人工知能技術の精度指標の一つ。見落としが少なく(感度が高く)、誤検出も少ない(偽陽性率が低い)ほど大きな値を取る(最大値は1)。