東京工業大学 情報理工学院 情報工学系の大上雅史准教授とKengkanna Apakorn(ケンカーンナー・アーパーコーン)大学院生が、創薬における低分子化合物の物性や活性を予測するAI(人工知能)による新たな予測手法を開発した。分子グラフを学習させつつ、そのグラフに重み付けの役割を持つ数値を算出して付与することで、これまで難しかった解析結果の説明性を確保したという。
グラフ構造を学習させ、重み付けの情報から説明性を獲得
一般にAIが出力する解析結果は、人間が理解できない何らかの理由が根拠となっていることも多いとされ、医療分野での利活用にはこの克服が課題とされる。大上准教授らは、化合物の構造式をグラフ※1で表現して処理するグラフニューラルネットワーク※2に着目。そのうえで、原子と結合の関係を表現する一般的なグラフと、化合物の複数の原子や結合(部分構造)を1つのノードに縮約するグラフ表現を組み合わせ学習するMMGX(Multiple Molecular Graph eXplainable discovery)という予測手法を提案した。
具体的には、原子と結合の関係を表現したグラフ(原子グラフ)のほかに、化合物の複数の原子や結合(部分構造)を1つのノードに縮約するグラフ表現を用いた(図1)。化合物の性質は、化合物に含まれる部分構造によって決まるものが多く、部分構造の情報をうまく活用することで高度な予測が可能になると考えた。
次に、グラフ表現の入力から学習を行う、グラフニューラルネットワークによる教師あり機械学習手法「MMGX」の構築を行った。このとき、原子グラフと縮約されたグラフを組み合わせて情報抽出を行う仕組みを採用した(図2)。さらに、アテンション機構を取り入れたグラフアテンションネットワーク構造を用いることで、アテンションウェイト※3の値から「どの部分構造に着目してその予測結果としたのか」という情報を得ることができるようになった(図3)。
このようにして構築したMMGXについて、20種類の異なる予測タスクからなるデータセットによって予測性能の検証を行ったところ、いずれのタスクでも現時点での最高精度に比肩する予測結果を示した。さらに、アテンション機構の重み値による可視化を行い、分子の性質を解釈する方法を提案した(図4)。実際に、変異原性※4の情報を集めたデータセットから学習したMMGXの予測モデルでは、化合物グラフの入力情報を用いて変異原性毒性が示唆される部分構造を複数抽出することができ、その一部は実際に文献等で変異原性が報告されている部分構造であった(図5)。
GitHubからダウンロード可能
研究グループは、この研究成果が医薬品開発プロセスの効率化に寄与できるとしており、既に、より大きな分子量(分子量500超)の化合物にも適用できるAI予測手法の構築を進めているとともに、分子シミュレーションによる結合自由エネルギー計算手法と組み合わせ、訓練データによる学習にとらわれずに重要な部分構造を推定できる枠組みも検討している。今回発表したMMGXは、オープンソースソフトウェアとしてプログラム共有サイトGitHub|Ohue Lab/MMGX からダウンロード可能となっている。
※1 グラフ:鉄道の路線図のような、点や丸で表された「ノード」と、それらの間に張られる「エッジ」によって表現される数学的な構造。化合物のグラフ表現においては、原子を「ノード」、原子間の結合を「エッジ」とした原子グラフが通常よく用いられる。
※2 グラフニューラルネットワーク:グラフ情報を扱うニューラルネットワークを指す。
※3 アテンションウェイト:アテンション機構における、入力されたデータから学習された各注目部分についての重み(重要度)。
※4 変異原性:生物の遺伝情報を変化させる性質。細胞のがん化の誘発要因となることがある。