Google がんの遺伝子変異のみを検出するAI「DeepSomatic」発表 、オープンソース化し公開

Googleが、カリフォルニア大学サンタクルーズ校ゲノム研究所をはじめとする連邦政府および学術機関の研究者と共同で、がん由来の遺伝子変異のみを正確に抽出するAI(人工知能)を発表した。基礎的なトレーニングを施したうえでの検証では、乳がんと肺がんにおいて良好な性能が確認されており、他のがん種において研究者に広く活用されることを期待し、オープンソース化されGitHubに公開された。
先天的な変異を検出するDeepVariantを拡張
後天的ながん由来変異をさらに導き出すDeepSomaticを開発

Googleの発表内容によると、今回開発した「DeepSomatic」は10年前に発表した、先天的な遺伝子変異を検出するAI「DeepVariant」を拡張して生まれたものだという。まず、腫瘍細胞と非がん細胞のゲノム配列データを画像化し、機械学習の主要なアルゴリズムである畳み込みニューラルネットワークで解析、差分を抽出することで、がん由来の遺伝子変異のみを残すことができるのだという。

Googleでは、共同研究パートナーのカリフォルニア大学サンタクルーズ校、国立がん研究所と協力し、腫瘍細胞中の変異を検出するための新たな訓練・評価データセットを作成。研究用細胞株由来の乳がん検体4つと肺がん検体2つから、腫瘍細胞と付随する正常細胞の配列を解析した。その後、学習データに含まれていない乳がんゲノム1つと、学習データから除外した各サンプルの1番染色体を含む複数の方法でDeepSomaticの性能をテストしたところ、3つの主要シーケンシングプラットフォームそれぞれ向けに開発されたDeepSomaticモデルが、他の手法よりも優れた性能を示し、より多くの腫瘍バリアントをより高い精度で同定したこという。

また、神経膠芽腫、小児白血病の解析においても良好な性能をしめしたという。特に、白血病は血流中に存在するため非がん性の血液サンプルしないが、それでもDeepSomaticは既知の変異に加えて10個の新たな変異も特定し、腫瘍のみのサンプルでも解析可能であることを示したとしている。
DeepSomaticとトレーニングデータセットをGitHubで公開
Googleは発表の中で「研究室や臨床医の皆様にこのツールをご利用いただけるよう願う」とし、DeepSomaticそのものと、トレーニングデータセットをそれぞれGitHubで公開した。BSDライセンスのもとで誰もが研究に活用できる。この発表は、がんの治療戦略を全世界で同時に大きく進展させる可能性を秘めるイノベーティブな成果といえるだろう。