AI化合物設計技術「MMGX」開発、分子グラフの学習で解析結果に説明性付与 オープンソースで公開

NEWS

 東京工業大学 情報理工学院 情報工学系の大上雅史准教授とKengkanna Apakorn(ケンカーンナー・アーパーコーン)大学院生が、創薬における低分子化合物の物性や活性を予測するAI(人工知能)による新たな予測手法を開発した。分子グラフを学習させつつ、そのグラフに重み付けの役割を持つ数値を算出して付与することで、これまで難しかった解析結果の説明性を確保したという。

グラフ構造を学習させ、重み付けの情報から説明性を獲得

図1:化合物の構造式のグラフ表現。この図では化合物の例として、アスピリン(アセチルサリチル酸、C6H4(COOH)OCOCH3)の各グラフ表現を記載した。原子と結合の一般的なグラフ表現である原子グラフのほかに、一部の原子集団を縮約する複数のグラフ表現を用いている。

 一般にAIが出力する解析結果は、人間が理解できない何らかの理由が根拠となっていることも多いとされ、医療分野での利活用にはこの克服が課題とされる。大上准教授らは、化合物の構造式をグラフ※1で表現して処理するグラフニューラルネットワーク※2に着目。そのうえで、原子と結合の関係を表現する一般的なグラフと、化合物の複数の原子や結合(部分構造)を1つのノードに縮約するグラフ表現を組み合わせ学習するMMGX(Multiple Molecular Graph eXplainable discovery)という予測手法を提案した。

具体的には、原子と結合の関係を表現したグラフ(原子グラフ)のほかに、化合物の複数の原子や結合(部分構造)を1つのノードに縮約するグラフ表現を用いた(図1)。化合物の性質は、化合物に含まれる部分構造によって決まるものが多く、部分構造の情報をうまく活用することで高度な予測が可能になると考えた。

図2:提案手法であるMMGXの全体像。複数の分子グラフ表現を入力とし、グラフのノード情報を変換しながら情報抽出を行うグラフニューラルネットワークにより、化合物の部分構造に基づく性質の学習を行っていく。アテンション機構により抽出される重み(アテンションウェイト)は予測結果の解釈に用いられる。
図3:
提案手法であるMMGXのニューラルネットワーク構造。グラフニューラルネットワーク (GNN)とグラフアテンションネットワークによるアテンション機構を活用して、分子の部分構造の情報抽出が可能な予測モデルを構築した。

次に、グラフ表現の入力から学習を行う、グラフニューラルネットワークによる教師あり機械学習手法「MMGX」の構築を行った。このとき、原子グラフと縮約されたグラフを組み合わせて情報抽出を行う仕組みを採用した(図2)。さらに、アテンション機構を取り入れたグラフアテンションネットワーク構造を用いることで、アテンションウェイト※3の値から「どの部分構造に着目してその予測結果としたのか」という情報を得ることができるようになった(図3)。

図4. 提案手法MMGXによる分子の解釈機能。
図5:MMGXによる予測例。変異原性毒性を予測するための学習を行い、予測結果を解釈するために可視化を行ったところ、既に毒性が知られている部分構造が複数抽出された。また、未報告だが毒性のある可能性が示唆される部分構造も提示された。

このようにして構築したMMGXについて、20種類の異なる予測タスクからなるデータセットによって予測性能の検証を行ったところ、いずれのタスクでも現時点での最高精度に比肩する予測結果を示した。さらに、アテンション機構の重み値による可視化を行い、分子の性質を解釈する方法を提案した(図4)。実際に、変異原性※4の情報を集めたデータセットから学習したMMGXの予測モデルでは、化合物グラフの入力情報を用いて変異原性毒性が示唆される部分構造を複数抽出することができ、その一部は実際に文献等で変異原性が報告されている部分構造であった(図5)。

GitHubからダウンロード可能

研究グループは、この研究成果が医薬品開発プロセスの効率化に寄与できるとしており、既に、より大きな分子量(分子量500超)の化合物にも適用できるAI予測手法の構築を進めているとともに、分子シミュレーションによる結合自由エネルギー計算手法と組み合わせ、訓練データによる学習にとらわれずに重要な部分構造を推定できる枠組みも検討している。今回発表したMMGXは、オープンソースソフトウェアとしてプログラム共有サイトGitHub|Ohue Lab/MMGX からダウンロード可能となっている。

※1 グラフ:鉄道の路線図のような、点や丸で表された「ノード」と、それらの間に張られる「エッジ」によって表現される数学的な構造。化合物のグラフ表現においては、原子を「ノード」、原子間の結合を「エッジ」とした原子グラフが通常よく用いられる。
※2 グラフニューラルネットワーク:グラフ情報を扱うニューラルネットワークを指す。

※3 アテンションウェイト:アテンション機構における、入力されたデータから学習された各注目部分についての重み(重要度)。
※4 変異原性:生物の遺伝情報を変化させる性質。細胞のがん化の誘発要因となることがある。

論文リンク:Enhancing property and activity prediction and interpretation using multiple molecular graph representations with MMGX(Communications Chemistry)

 

関連記事

NEWS

Posted by medit-tech-admin