Google がんの遺伝子変異のみを検出するAI「DeepSomatic」発表 、オープンソース化し公開

NEWS,海外

(イメージ)

 Googleが、カリフォルニア大学サンタクルーズ校ゲノム研究所をはじめとする連邦政府および学術機関の研究者と共同で、がん由来の遺伝子変異のみを正確に抽出するAI(人工知能)を発表した。基礎的なトレーニングを施したうえでの検証では、乳がんと肺がんにおいて良好な性能が確認されており、他のがん種において研究者に広く活用されることを期待し、オープンソース化されGitHubに公開された。

先天的な変異を検出するDeepVariantを拡張
後天的ながん由来変異をさらに導き出すDeepSomaticを開発

(Googleのプレスリリースより、キャプションの日本語訳)DeepSomaticはゲノムデータからがん由来の変異を検出します。まず、腫瘍細胞と非がん細胞のシーケンシングデータを画像化します。DeepSomaticはこれらの画像を畳み込みニューラルネットワークに通し、参照ゲノム、その個体における非がん性の生殖細胞系列変異、そして腫瘍におけるがんに起因する体細胞変異を区別します。その際、小さなシーケンシングエラーによって生じた変異は除外します。その結果、がんに起因する変異、つまり突然変異のリストが得られます。

 Googleの発表内容によると、今回開発した「DeepSomatic」は10年前に発表した、先天的な遺伝子変異を検出するAI「DeepVariant」を拡張して生まれたものだという。まず、腫瘍細胞と非がん細胞のゲノム配列データを画像化し、機械学習の主要なアルゴリズムである畳み込みニューラルネットワークで解析、差分を抽出することで、がん由来の遺伝子変異のみを残すことができるのだという。

(Googleのプレスリリースより/キャプションの日本語訳)DeepSomaticの学習に使用されたベンチマークデータセット。各バーは、乳がんサンプル4つと肺がんサンプル2つで発見された変異の数を示しており、色は変異の種類を表しています。肺がんでは、環境毒素によって引き起こされる顕著な変異が見られ、緑色で示されているSBS4もその一つです。しかし、同じ種類のがんであっても、変異シグネチャーには大きな違いが見られます。こうした個体差から、治療への反応を予測することができます。

 Googleでは、共同研究パートナーのカリフォルニア大学サンタクルーズ校、国立がん研究所と協力し、腫瘍細胞中の変異を検出するための新たな訓練・評価データセットを作成。研究用細胞株由来の乳がん検体4つと肺がん検体2つから、腫瘍細胞と付随する正常細胞の配列を解析した。その後、学習データに含まれていない乳がんゲノム1つと、学習データから除外した各サンプルの1番染色体を含む複数の方法でDeepSomaticの性能をテストしたところ、3つの主要シーケンシングプラットフォームそれぞれ向けに開発されたDeepSomaticモデルが、他の手法よりも優れた性能を示し、より多くの腫瘍バリアントをより高い精度で同定したこという。

(Googleのプレスリリースより/キャプションの日本語訳)研究で広く使用されている乳がんサンプルにおけるDeepSomaticの結果(紫色)を、他のツールと比較した。Illuminaのデータでは複数のソフトウェアツールががんの変異を識別しているのに対し、PacBioとOxford Nanopore Technologiesが生成したロングリードシーケンスデータでは、代替ツールが1つしか存在しない(ピンク色)。F1スコアは、検出された変異の数と精度を測定する。DeepSomaticは、遺伝子コード内の1文字変異(一塩基変異)に対してはわずかに優れた性能を示し、挿入欠失(Indel)を含む変異に対しては大幅な改善を示している。

 また、神経膠芽腫、小児白血病の解析においても良好な性能をしめしたという。特に、白血病は血流中に存在するため非がん性の血液サンプルしないが、それでもDeepSomaticは既知の変異に加えて10個の新たな変異も特定し、腫瘍のみのサンプルでも解析可能であることを示したとしている。

DeepSomaticとトレーニングデータセットをGitHubで公開

 Googleは発表の中で「研究室や臨床医の皆様にこのツールをご利用いただけるよう願う」とし、DeepSomaticそのものと、トレーニングデータセットをそれぞれGitHubで公開した。BSDライセンスのもとで誰もが研究に活用できる。この発表は、がんの治療戦略を全世界で同時に大きく進展させる可能性を秘めるイノベーティブな成果といえるだろう。

Googleのニュースリリース

論文リンク:Accurate somatic small variant discovery for multiple sequencing technologies with DeepSomatic(nature biotechnology)

関連記事

NEWS,海外

Posted by medit-tech-admin