多次元データ解析におけるAIの精度を新アルゴリズム開発で改善 広島大

 医用画像解析のAI(人工知能)の開発は現在、複数の有用な多次元データを同時に解析することで、精度をさらに向上させる段階に入っている。その中で課題となっている対象データの偏りを補正する新たな手法を、広島大学の研究グループが提案した。

 研究成果を発表したのは、広島大学 大学院医系科学研究科 放射線腫瘍学の岡宏貴大学院生、河原大輔講師、村上祐司教授らの研究グループ。近年の医用画像解析AIの開発においては、機械学習と CT や PET などの医用画像を組み合わせ、がん予後や治療効果を予測する「Radiomics 解析」が注目されている。この手法では、医用画像から人の目では捉えられない特徴を抽出し、AI が学習することで高度な予測を行うことが可能だが、解析対象となる症例の割合に偏りがあった場合、AI は多数派のデータに基づいた予測を優先し、少数派の症例について正確な予測を行えなくなることがある。

 この課題を克服するため、研究グループでは、対象データのそれぞれにおいて、ガウシアンノイズ※1を用いた少数派のデータを仮想的に増やすことによるデータ不均衡補正法を開発し、多数派に偏る AI の弱点を補正して、予測精度改善に有効か検証を行った。具体的には頭頸部扁平上皮がん患者の再発予測を対象に、ガウシアンノイズを利用した不均衡補正法(GNUS)の効果を検証した。

図1.予測モデル構築のフロー。CT 画像と PET 画像に対して Radiomics 解析を行い、画像から特徴量を抽出する。抽出された特徴量と再発の有無との関係をLASSO 回帰※2により調べ、予測に不要な特徴量を削除する。再発例と無再発例の症例数の不均衡を補正するために、再発例の特徴量を従来の手法である SMOTE※3 や本研究で開発した GNUS を用いて生成。これらの特徴量を予測因子として機械学習(KNN、SVM など)を行い、再発の有無を予測する。

 結果、従来の不均衡補正法のひとつである ADASYN※4 が、感度 90 %, 特異度 93 %, 精度 91 %, AUC 0.97 、感度と特異度の差が 3 %だったのと比べ、研究グループがが開発した GNUS は、感度 93%, 特異度 94 %, 精度 94 %, 感度と特異度の差が 1 %、AUC0.98 となり従来法を上回った。

 研究グループは提案したGNUSに関して、精度も臨床応用が可能な精度になっており、今後は臨床応用を検討するとともに、汎用性を高めるため他施設におけるデータを使用した検証、アプリケーション開発を目指すとしている。

※1 ガウシアンノイズ
Gaussian noise、ガウス分布(正規分布)に従う確率的なノイズのことを指す。ノイズとは、信号やデータに不要なランダムな変動が加わることで、ガウシアンノイズはその中でも特にガウス分布に従うノイズを指す。

※2 LASSO 回帰
正則化された線形回帰の一つで、線形回帰に学習した重みの合計(L1正則化項)を加えたもの。

※3 SMOTE
代表的なオーバーサンプリングの手法の一つ、Synthetic MinorityOversampling TEchnique の略、データを人工的に生成する手法。

ADASYN ※11
オーバーサンプリングの手法の一つ、ADAptive SYNthetic の略、少数派クラスのデータ付近に多数派クラスがどれくらい存在するのかの情報(重み)を動的に加味して増やす手法。

論文リンク:Radiomics-based prediction of recurrence for head and neck cancerpatients using data imbalanced correction(Computers in Biology and Medicine)