日本の研究グループが、鼻腔内視鏡動画を用いて、気象疾患である「鼻副鼻腔乳頭腫」を対象とする高精度のAI診断モデルの作成に成功した。熟練医の診断精度を上回っており、他の希少疾患に対する 人工知能研究にもつなげることが期待できるとしている。
診断精度87.4%(感度81.0%、特異度 87.6%)を達成
研究成果を発表したのは、東京慈恵会医科大学耳鼻咽喉科学講座 由井亮輔助教、高橋昌寛講師、鴻信義教授、小島博己講座担 当教授らとサイオステクノロジー株式会社 野田勝彦、吉田要らの研究グループ。気象疾患である「鼻副鼻腔乳頭腫」は良性腫瘍だが、再発や悪性化する可能性があり、早期診断と鼻腔内視鏡下での外科的切除が望まれる。通常、耳鼻咽喉科では外来診察に鼻腔内視鏡を用いるが、鼻副鼻腔乳頭腫と鼻腔ポリープ(鼻茸)との鑑別が困難な症例も多くあるという。
研究グループでは、他疾患での診断モデル開発に実績をあげつつあるものの、大量の教師データが必要とされる人工知能の学習アルゴリズム、いわゆるディープラーニング(DNN)を希少疾患の診断モデル開発に適用できるかを探索した。具体的には、2018年から2021年にかけ、東京慈恵会医科大学附属病院耳鼻咽喉科で内視鏡下鼻副鼻腔手術を受けた患者で病理検査で鼻副鼻腔乳頭腫と診断された患者21例、鼻腔ポリープを伴う慢性副鼻腔炎患者32例の計 53 例(男性 =33、女性 =30、平均年齢 51.2±12.6 歳)を対象とし、鼻副鼻腔乳頭腫、鼻腔ポリープそれぞれの病変が画面に映っている場面のみに手術動画(鼻腔内視鏡動画)を編集した。次に患者を無作為に 8 グループに分け、学習用と評価用に分けて交差検証を行なった。
学習時には、224×224 ピクセルのサイズに切り出した画像を用い、画像の病変部を範囲内に収めながらDNNモデルを学習させた。1つの DNNモデルの1回の学習サイクルでは、50回の反復学習を繰り返し実行した。この学習サイクル を 8 つのデータセットで行い、1 つの学習セットで 8 つのモデルを生成。各 DNN モデルの学習は少数の患者からオーグメントで生成した大量のデータを用いるため、学習するたびに能力・精度に差が出ることから、その能力・ 精度の変動を検証するため24の学習セットを作成した。その結果、8 データセット×24=192 個の診断モデルが生成された。同時に、経験年数の異なる耳鼻咽喉科医25名に、AIが評価した鼻腔内視鏡動画と全く同じものを見せ、鼻副鼻腔乳頭腫症例か鼻腔ポリープ症例かを診断してもらい、比較した。
その結果、すべての診断モデルの中で最も優れた性能のものは、5秒間スコア分析を用いたアンサンブル予測による精度 84.3% (感度 81.0%,特異度 87.6%)だった。なお耳鼻科医の診断精度は平均 69.4%で、医師の診断精度を大幅に上回った。
研究グループでは診断精度だけでなく個別の症例についても検討した。耳鼻咽喉科医にとっては明らかな鼻副鼻腔乳頭腫の所見であるにも関わらず、AI が正しく診断できなかった症例、逆にAI がほぼ完璧に診断したにもかかわらず、耳鼻咽喉科医による正しい診断率が低い症例もあったという。研究グループでは、AIが人間と異なる部位を認識しているためと推測しているが、AIの具体的な判断基準が不明のため、このような症例に病変発見の新たな鍵が隠されている可能性があるという。
研究グループでは今後、多施設での臨床研究や対象疾患を増やす予定で、鼻腔内視鏡で様々な疾患のスクリーニングができるようになればとしている。また、症例数が少ないにもかかわらず高精度のAIを開発できたことから、同様に症例の少ない他の希少疾患に対するAI研究に応用可能だとしており、今後実際に取り組むという。