乳がん超音波検診での「精密検査の要否判定」に特化した人工知能開発、精度91.2%で専門医上回る
アジア人女性に対する乳がん検査において、超音波検査の重要性が認識されてきているところだが、日本での多くの検査画像を収集した上で「精密検査の要否」の判断支援に特化した人工知能が開発された。専門医の判断と比較し判別能が上回っていることも確認されており、研究グループでは薬事承認を目指すとしている。
国際判定基準「BI-RADS」に基づいた判定を人工知能が実施
慶應義塾大学医学部外科学教室(一般・消化器)の林田哲専任講師、北川雄光教授を中心とする多施設共同研究グループは、ソフトウェア会社であるフィックスターズ(東京都)と共同で、乳房超音波検査画像を解析する人工知能(AI)を活用した画像診断システムを開発した。
日本を含むアジア人女性は、乳腺の密度が高い「高濃度乳房」が多く、また乳がんの発症年齢が欧米女性より若い 40 代〜50 代に多いため、相対的に超音波検査の有用性が高いと考えられている。実際に日本で行われた大規模な臨床試験(J-START 試験)の結果から、乳がん検診において、超音波検査を併用することでマンモグラフィー単独の検査に比べて早期乳がんの発見率が高まることも明らかになっている。ただし乳房超音波検査は患者の身体を超音波装置を用いて直接調べる検査であることから、その精度は機材の良し悪しや検査者の知見に左右されるものであり、検査技師や医師の育成および診断技術の向上が重要な課題だ。人材育成においては、現状、乳腺診療を専門としない医師が検診やドックの最終的な判定を行う事例が数多く存在するなど、超音波検査の需要増加に対応できるか不透明な状況となっている。
このような現状を踏まえ、研究グループではディープラーニング技術を用いた人工知能(AI)を用い乳腺超音波検査の診断システムを構築、診断精度の向上に貢献できるか検討を行った。
システム構築にあたり、研究グループでは乳房超音波検査の国際的な判定基準である BI-RADS 基準において、乳がんの頻度が高まる BI-RADS カテゴリー4 以上なのか、乳がんの可能性がほとんどない BIRADS3 以下なのかを判定することを目標とした。これは超音波検査のみでは精度100%とはならないことから、人工知能で良悪性の判断を行うのではなく、現状の検査フローの中に組み込んで検査フロー全体を最適化することの方が、診断精度の向上に貢献できるとの見込みからだ。
研究グループはまず、フィックスターズが開発したConvolutional Neural Network (CNN)をベースのディープラーニング技術を利用し、慶應義塾大学が提供する約 1,500枚のアノテーション済み乳房超音波画像を教師データとして学習させた AI 診断システムを構築。このシステムが高い精度で検査画像中の腫瘍を認識し、良悪性の判定を一枚あたり 0.01 秒以下で行えることを確認した。その後、慶應義塾大学、帝京大医学部、杏林大学医学部、国立がんセンター(中央/東)、埼玉医科大学国際医療センター、北里研究所病院、東京医療センターが共同研究グループを結成、超音波検査画像7,194 枚を収集しそのすべてのアノテーション作業を行ったうえで、さらに教師データ(4028 枚)とテストデータ(3166 枚)に分け、AI システムの構築と検証に使用した。
検証の結果、感度 91.2%・特異度 90.7%の精度で診断が可能であり、判別能の指標として一般的な ROC曲線における AUCの値は0.95で、非常に精度が高いことが示された(図 2)。さらに、この AI 診断システムと 10 名の外科専門医含む計 20 名の臨床医による、30 枚の乳房超音波検査画像に対する診断精度比較を行ったところ、感度・特異度ともに統計学的に有意な差をもって AI のほうが優れていることが示された(図 3)。なお単純比較はできないものの、日本乳がん検診精度管理中央機構が認定する「乳がん検診超音波検査実施・判定医師」の合格基準が感度 80%・特異度 80%であることを考慮すると、今回構築したAI はこれらを凌駕する精度での診断結果を示し、最高クラスの診断能力を持つ専門医・放射線技師と同等以上の能力を持つことが期待できるとした。このような成果が得られたことから、研究グループではさらなる精度向上を目指しつつ、臨床応用を実現するため薬事承認を目指すとしている。