富士通研究所、アイルランドのデータ・アナリティクス研究機関The Insight Centre for Data Analytics、Fujitsu Ireland Ltd.は、未知の化学反応予測に関して、従来手法より約2倍の大量予測を可能とする技術を開発したと発表した。創薬研究やいわゆる精密医療への応用が期待できるとしている。
従来手法よりリン酸化反応を2倍予測可能に
近年、がんなどの重篤な疾患の多くは、タンパク質間の代表的な化学反応である「リン酸化反応」の異常に原因があることが分かってきた。リン酸化反応の異常を修復する医薬品が開発できればより効果的な治療が可能となるが、現在明らかになっているリン酸化反応はまだ少なく、未知のリン酸化反応の発見と、それによるリン酸化反応データの充実が求められている。
リン酸化反応とはタンパク質を構成しているアミノ酸に、別のタンパク質によってリン酸基が付与される化学反応で、その発見にはどのタンパク質の組み合わせでリン酸化反応が起こるかを生物学実験によって確認する必要がある。しかし、タンパク質の組み合わせだけでも約80万通り以上あり、かつ生物学実験には膨大なコストと時間がかかることから、あらかじめ確度が高いタンパク質の組合せを予測することが求められる。
リン酸化反応が起きるかどうかは、タンパク質を構成するアミノ酸配列の構造に依存することが知られており、既知のリン酸化反応が起こるアミノ酸配列の構造を学習することで、新たなリン酸化反応を予測するAI技術はすでに活用されている。しかし、この従来技術ではアミノ酸配列の構造が既知のリン酸化反応と類似するものは予測できるが、既知のリン酸化反応とはアミノ酸配列の構造が大きく異なるものは予測することができていなかった。
今回富士通研究所らが開発した予測技術(特許出願済)では、アミノ酸配列の構造情報に加えて、連鎖情報をナレッジグラフ※1上に表現する。これまで1回の連鎖でしか確認できなかったタンパク質間の関係を、リン酸化反応のつながり(連鎖情報)を総合的に表現することで、全体から見たそれぞれのタンパク質の位置づけを明確にし、未知の関係性を予測することができるようになる。
この技術を評価用データを用い検証したところ、リン酸化反応(9,802個)を学習して新たなリン酸化反応を予測した結果、11,581,940個のリン酸化反応数が算出され、アミノ酸配列の構造をAIで学習する従来技術とくらべ、予測の精度を大きく変えずに約2倍の大量のリン酸化反応予測が可能になった。
富士通研究所では、本技術で新たに予測したリン酸化反応データを他の生物医学データと合わせることで、疾患原因から疾患発症までの化学反応の流れが把握できるようになるとし、創薬における有用な情報として、また、薬効の個人差を解明し患者個人に適した精密医療の推進に貢献できるとしている。