DeepMind、約2万のヒトプロテオーム構造すべてを高精度予測したデータベース公開 AIもオープンソース提供

 米Alphabet傘下のAI企業DeepMindが、昨年その高精度な予測能力で世界を驚かせたタンパク質構造予測AI「AlphaFold」をオープンソース化し、さらに同AIで構造予測した2万のヒトプロテオームすべてを含む35万を超えるタンパク質のデータベースを公開した。タンパク質構造を高精度に予測することは、様々な疾患機序の解明をはじめ、治療薬候補の探索など医療分野の研究に大きく役立つだけに、今後の研究進展を強く後押しする発表だ。

今後数ヵ月以内にさらにアップデート、既知のタンパク質すべての構造解析データを公開へ

 昨年11月にDeepMindが発表したタンパク質構造予測AI「AlphaFold」の成果は、ここ50年来の生物学上の一大命題である「タンパク質の折りたたみ問題」を、比較的安価にコンピュータのみで解決しうるものとして、世界中の研究者から驚きと賞賛をもって受け止められた(既報)。当時の発表より、いずれかの時期に査読付き論文の発表を通じて世界中で利用できるようにするとの意向を表明していたが、今回の発表はそれにとどまらず、AlphaFoldによって構造予測したタンパク質のデータベースをも公開。さらに取り組みを先に進めたかたちだ。

 今回公開した「AlphaFold Protein Structure Database」には、約2万あるといわれるヒトプロテオーム(ヒトゲノムによって発現されるタンパク質)のすべてを搭載しただけでなく、さらに生物学的に重要な20の生物のプロテオーム、合計350,000を超えるタンパク質構造の予測データも収容している。さらにそれのみならず、今後数ヵ月以内にはタンパク質配列のデータベース「Uniprot」に登録されている、1億を超える配列のほとんどを構造予測データにして搭載する予定だという。

 DeepMindは同時に、先に表明した通り「AlphaFold」のアルゴリズムについて2本の査読付き論文もNatureに発表し、さらにAlphaFold自体もオープンソースとしてGitHubにソースコードを公開した。これらを活用すれば、プロテオーム解析の壁にぶつかっていたほぼ全ての研究が大きく前進することになる。すでにいくつかの研究で使われており、例えばコロラド大学ボルダー校の研究チームはAlphaFold予測を使用して抗生物質耐性を研究し、カリフォルニア大学サンフランシスコ校のグループは新型コロナウイルスについての研究に活用しているという。同社はオープンソース化したAlphaFold、公開したデータベースのいずれも定期的に更新するとしている。

関連リンク:
AlphaFold Protein Structure Database
deepmind/alphafold(GitHub)
Highly accurate protein structure prediction with AlphaFold(Nature)
Highly accurate protein structure prediction for the human proteome(Nature)