米Alphabet傘下のAI企業DeepMindが30日、タンパク質構造予測の重要な評価指標として定期的に開催されるコンペ「Critical Assessment of protein Structure Prediction(CASP)」に同社のAI「AlphaFold」が参加し、原子レベルの誤差しかないハイスコアを達成したと発表した。コンピューティングによる予測精度が、コストのかかる特殊な手段に匹敵するものとなった歴史的業績と報じられており、今後、様々な疾患機序の解明、創薬や産業廃棄物削減などの分野で大きく貢献することが期待される。
「原子レベルの誤差しかない」構造予測をコンピュータで初めて達成
ほとんどの生命が活動を維持するために不可欠なタンパク質は、アミノ酸の鎖で構成された大きな複雑な分子(高分子体)であり、それぞれが独特な立体構造を構成している。この構造がそのタンパク質の機能を決定しており、つまり構造を予測し解析することこそが、タンパク質がかかわるほぼすべての疾患機序の解明、ひいては治療薬候補(これもタンパク質であることが多い)の発見、創薬にも繋がっていく。リボヌクレアーゼの研究で、アミノ酸配列がタンパク質の構造を決定していることを予言したアンフィセンがノーベル生化学賞を受賞した1972年以来、それぞれのタンパク質がどのように立体構造を構成していくのか(折りたたまれていくのか)を解明することが、「タンパク質の折りたたみ問題(=The protein folding problem)」として語られ、ここ50年の生物学上の一大テーマとなっている。
この課題の克服のため、「低温電子顕微鏡法」や「核磁気共鳴法」といった特殊、または大掛かりな機器を活用した構造解析法が開発されてきているが、日本円にすれば数億円の専用機器であり、またひとつの構造を解析するのに何年もかかることが通常だった。20世紀終盤に入り、計算速度・精度ともに飛躍的に高まってきたコンピュータを用いた構造解析が盛んに行われるようになったことにともない、その解析モデルの評価を行うために始まったのがCASPだ。CASPは1994年以来2年ごとに開催され、世界の研究グループへ解析用のさまざまな3D構造モデルを提供することで、予測方法を客観的にテストする機会を提供している。DeepMindはこの解析にチャレンジするAIを、折りたたみ問題にちなみ「AlphaFold」と名付け2018年から参加してきた。先日終了したCASP14には、数週間かけて約17万の解明済みのタンパク質配列とその形状を含む公開データベースでアルゴリズムをトレーニングして臨んだというが、これは他の研究と比べれば量的に控えめなものだとしている。
そして30日に発表された結果は、参加したなかでもっとも良好なものだっただけでなく、予測の平均誤差がたった約1.6 オングストロームしかなかったという歴史的なパフォーマンスだった。オングストロームという単位自体が原子や分子レベルの小ささを示すものであり、その単位で1.6の数値しかなかったということは、すなわち誤差が原子ひとつレベルだったということを示している。そしてこの数値は、解析用のタンパク質などを実際に生成して行う実験とほぼ同じレベルの解析が、コンピュータ上で行えるようになったことを示す、歴史的なマイルストーンともなった。
さらにこの結果は、今後コンピュータ上で構造予測をすることがむしろ研究のメインストリームになることを強く示唆するものでもある。というのは、近年創薬分野で注目されている「ナノマシン」と呼ばれるような、分子レベルで薬剤成分などを運ぶことで薬剤療法の効用を高めたり副作用を低減させようとする仕組みの進展が、現在の解析手法の限界で阻まれているからだ。ナノマシンのさらなる研究には、分子にゲートキーパーとして立ちはだかる「膜タンパク質」の研究が不可欠だが、この膜タンパク質は実験でモデルを作るには非常に困難な物質なのだ。実際、CASP14の運営側でAlphaFoldのパフォーマンスを評価したマックスプランク発達生物学研究所のアンドレイ・ルーパス教授は「AlphaFoldの驚くほど正確なモデルにより、10年近く立ち往生していたタンパク質構造解明の試みが再び動き出し、物質が細胞膜を越えてどのように伝達されるかを解明することができるだろう」と語っている。
AlphaFoldのプロジェクトチームでは、CASP14に臨むにあたって開発したアルゴリズムを査読付きの論文として公開し、世界中で利用できるようにすることを目指すと表明している。