医療分野のAI(人工知能)で近年求められることとして、診療録などの医療文書に記載された非定型の文章をいかに解析し、診療支援に資するソリューションに昇華させるかという課題が存在するが、川崎医科大の研究グループが、コホート研究のデータから医学用語を抽出したうえでベクトル化し、数学的に解析する手法を開発した。患者データのベクトルと転帰のベクトルの「内積」が、予後予測のマーカーとして活用可能であると確認したという。
自然言語処理の定番「Word2Vec」アルゴリズムでベクトル化
研究成果を発表したのは、同大学医学部 神田英一郎学長付特任教授(データサイエンス・腎臓内科学)、高齢者医療センター 柏原直樹病院長らの研究グループ。研究グループは2019年に医学ガイドライン作成に欠かせないシステマティックレビュ ー(SR)を支援するAI活用システム「Doctor K」を開発しており、その応用として、膨大な医学論文を解析し医学用語のバーチャル空間を構築することに取り組んだ。目標として、病態生理が複雑であるゆえに試験デザインが難しく、臨床試験の数が他の医学領域に比べて非常に少ない慢性腎臓病(CKD)に関する空間構築を目指した。
具体的にはまず、165,271本の医学論文を自然言語処理の定番ともいえる、実績ある「Word2Vec」アルゴリズムで論文中の医学用語と用語間の関連性を抽出、ベクトル化しネットワークを生成した。関係性が医学的に正しいかについては、実際に腎臓内科専門医が手作業で確認したという。そのうえで、コホートに登録されている26,433 人のCKD患者データとの関係を、20世紀に入って確立された数学理論のひとつである「圏論」をベースとした解析方法で確認した。「圏論」は集合同士の物事の関係性を解析する分野で、膨大なデータを取り扱うデータサイエンスや認知科学で注目され応用が進んでいるが、臨床研究系分野では世界初の試みだという。研究グループが開発した手法で、ネットワーク内で患者状態を示すベクトルと転帰を示すベクトルの「内積」を算出。コホートの登録データが示す内容と比較したところ、内積が高い患者は透析や死亡に到る可能性が高いことが確認された(転機予測精度は最高でAUC0.911)。
研究グループではこの成果について、内積がCKD患者の腎予後および生命予後を正確に予測することが示され、CKD患者の予後の新たな代替マーカーとなり得ることが示唆されたとともに、血液検査結果などの患者データがなくても、GPT-4のような最先端のNLP AIモデルを用いることで、年齢、性別、糖尿病、高血圧などの情報をチャットボットに入力するなどして簡便にリスク判定できる可能性が示されたとする。また予備研究における解析で、CKDと亜鉛の関係を新たに発見したとしており、この手法により新たな研究シーズが生まれる可能性についても言及している。