AIで卵巣腫瘍の術前鑑別、良性悪性の予測精度AUC0.968 理研研究チームが開発
理化学研究所の研究チームが、血液検査データを機械学習で解析する「卵巣がんの術前予測AI」を開発したと発表した。良性悪性の予測精度はAUC0.968を達成しており、さらに悪性と予測した早期がん腫瘍の検査データ解析から、再発率の高いパターンがあることも初めて発見した。
血液検査データから術前予測、精度はAUC0.968
卵巣がんは女性の生殖器腫瘍の中で最も予後が悪いものの一つで、近年卵巣がんによる死亡者数は増加している。治療としては手術による腫瘍の切除が第一選択だが、化学療法への反応性も比較的良いため、手術前後に化学療法を行うのが一般的。化学療法への反応性は、進行期や組織型によって大きく異なるのに加え、近年有効な抗がん剤が登場してきたこともあり、術前に進行期や組織型を予測し、患者ごとに適切な治療戦略を策定することが強く望まれている。
今回、理化学研究所 科技ハブ産連本部健康医療データAI予測推論開発ユニットの川上英良ユニットリーダーらの国際共同研究チームは、機械学習を導入することで、多項目の術前血液検査データに基づく精密な特性予測と、予後と関連するパターンの抽出を試みた。具体的には、東京慈恵会医科大学産婦人科において2010~2017年に治療された、334名の悪性卵巣腫瘍患者と101名の良性卵巣腫瘍患者のデータを機械学習の手法で解析した。
チームはまず、教師あり機械学習であるランダムフォレスト法※1を用いて、診断時の年齢および術前血液検査データ32項目のデータに基づいて、悪性腫瘍と良性腫瘍を予測した。その結果、予測の精度の指標となるROC曲線※2のAUC※3は、従来の統計的手法である多変量ロジスティック回帰※4では0.897だったのに対し、ランダムフォレスト法では0.968に達し、非常に精度良く予測できることが分かった。
さらに同じ術前血液検査データに基づいて、がんの進行期(早期がんまたは進行がん)や組織型などの予測も行った。その結果、進行期は、AUC=0.760という比較的良い精度で予測することができ(図2A)、既に知られている腫瘍マーカーに加えCRP※5とLDH※6が重要であることが示され、進行期と炎症との関連が示された(図2B)。また組織型は、高異型度漿液性がんと粘液性がんの予測精度が比較的良く(AUC=0.785, 0.728)(図2C)、高異型度漿液性がんはCA125※7とCA19-9※8、粘液性がんはCEA※9が予測のマーカーとなることが明らかになった(図2D)。
研究チームはこの結果を受け、進行期予測の精度を高めるため教師なしランダムフォレスト法を用いて、教師なし機械学習を行った。すると、進行がんと良性腫瘍は明らかに異なる分布を示したが、早期がんは「良性腫瘍によく似た術前血液検査パターンを示す症例(クラスタ1)」と「進行がんによく似た術前血液検査パターンを示す症例(クラスタ2)」に分かれた。そして、クラスタ1では再発がほとんどなかったのに対し、クラスタ2では再発率と死亡率が高いという、予後との強い関連を示すことを発見した(図4)。
「臨床医も気づかなかったパターンを発見した」
研究チームは、本研究成果により、術前の血液検査データから高い精度で卵巣腫瘍の良性・悪性および予後と強く関連する早期卵巣がんのクラスタを予測できるようになったことで、手術前に治療方針決定に役立つ情報が得られると考えられるとした。さらに「もう一つ重要なのは、今まで臨床上気づかれなかった血液検査のパターンを発見した点であり、今まで臨床医も気づかなかった複雑なパターンを発見することに、機械学習が使えることを示した先駆的な事例だ」としている。
※1 ランダムフォレスト法
ランダムサンプリングしたトレーニングデータと説明変数を用いて、数千~数万の決定木を作り、各決定木の予測結果の多数決もしくは平均を取ることで、最終結果を決定する集団学習アルゴリズム。※2 ROC曲線
分類予測の性能を、判定の閾値を動かしていったときの特異度と感度の変化を二次元平面上に表した曲線。理想的な曲線は特異度、感度ともに1.0のところを通る。ROCはReceiver Operating Characteristicの略。※3 AUC
何らかの曲線の下の部分の面積。ROC曲線のAUCを求めることで、分類予測の精度の指標として使われることが多い。AUCはArea Under the Curveの略。※4 多変量ロジスティック回帰
複数の説明変数を用いて、現象の発生確率(例えば、卵巣腫瘍が悪性である確率)をモデル化する統計学的な手法。※5 CRP
体内で炎症が起きたり、組織が壊れたりしたときに血液中に現れるタンパク質。通常時はほとんど検出されないため、炎症の指標とされる。CRPはC-Reactive Proteinの略。※6 LDH
乳酸デヒドロゲナーゼ。ほとんどの組織に存在する可溶性タンパク質で、乳酸とピルビン酸の相互変換を触媒する。組織が傷害すると血液中に放出されるため、組織損傷の指標となる。※7 CA125
卵巣漿液性のう胞腺がんの培養細胞株を用いて作製されたモノクローナル抗体が認識する高分子量の糖タンパク質。卵巣がんのマーカーとしてして使われる。※8 CA19-9
ヒトの膵管、胆管、前立腺、胃、大腸、子宮内膜といった腺組織に存在する糖鎖抗原で、これらの組織の異常増殖により血中に放出されるため、膵がん、胆のうがん、胆管がん、卵巣がんなどでマーカーとして使われる。※9 CEA
大腸がん組織から発見された糖タンパク質で、各種消化器系がん、肺がん、腎がんなどでマーカーとして使われる。CEAはCarcinoembryonic Antigenの略。