1分程度の自由会話と患者情報の解析で認知機能障害を予測、精度約90%を達成 国立循環器病研究センターなどの共同研究

 国立循環器病研究センターおよび米スタートアップであるCanary Speech, Inc.などの研究グループが、約1,500名の音声データ、およびMCIのスクリーニング結果を用い、認知機能障害を解析するアルゴリズムを開発、高い判定精度を達成したと論文で発表した。従来10分ほど必要であった検査が1/10に短縮され、患者負担の軽減が期待できるという。

音声データをバイオマーカーとして活用できる可能性を証明

(図1)認知機能障害予測モデルの概要

 認知症予防には、介入可能な前段階である軽度認知障害(MCI)の早期発見が不可欠とされる。しかし、先行研究によるとMCI患者の約92%が未診断のままであり、現在の認知機能検査は医療専門家による対面形式で約10分を要するため、患者への負担が大きく、早期発見の実現が困難ともいえる状況だ。MCIでは声のパターンやテンポに変化が生じるとも明らかになっているため、音声は認知機能障害のバイオマーカーになる可能性がある。

 研究グループでは音声データをAI(人工知能)で解析すれば、早期に非侵襲かつ費用対効果の高い認知機能障害の識別が可能となる可能性があるとして、日本の地域在住高齢者の声から、AIで抽出した音声バイオマーカーを用いる予測モデルの開発と検証を実施した。

(図2)音声による認知機能障害検知AIモデルの予測精度(ROC曲線)(The Lancet Regional Health – Western Pacificに掲載の図を改変)

解説: ROC曲線は、検査や予測モデルの閾値を変化させたときの感度(真陽性率)と特異度(真陰性率)の関係をプロットしたもので、曲線下面積(AUC)が大きいほど感度と特異度のバランスが優れた高精度なモデルであることを示す。音声をモデルに加えることで予測精度が有意に上昇し、年齢+性別+教育歴 + 1分程度の音声でMCIを高精度に検知できた(AUC = 0.89)。

研究では1,461名の地域在住高齢者を対象とし、オープンクエスチョンインタビューで集めた音声データを、AI技術Wav2Vec2(音声generator)を用い、音声バイオマーカーを抽出。この音声バイオマーカーは音響特徴および韻律特徴に基づいており、個人の音声情報を512次元のベクトルとして表現している。そのほか、年齢、性別、教育歴も考慮した。認知機能障害予測モデル構築は機械学習アルゴリズムの extreme gradient boosting decision tree algorithm と deep neural network model を検討し、予測モデル開発を979名の学習データで実施。学習で使用しなかった482名をテストデータとして精度検証し、AUCsを算出した。このサンプルサイズは高い検知精度(AUC > 0.80)をもつAIの外的妥当性を検証に必要な310例を十分に上回っている。

 検証の結果、認知機能障害の予測精度は音声バイオマーカーを追加することでAUC(95%信頼区間)が有意に精度向上した。具体的には、年齢と性別のモデルで80 (0.76–0.84) から 0.88 (0.84–0.91)の精度向上、年齢、性別、教育歴のモデルで0.78 (0.73–0.82) から 0.89 (0.86–0.92)へ精度向上した(どちらもDeLong testでp<0.0001)。(図2)

 研究グループでは、開発した予測モデルは、会話の内容や使用する単語に依存せずに使用でき、加えて、従来の10分必要なスクリーニング時間を1分程に大幅に短縮することができるとしている。この予測モデルによりMCIの判定をタイムリーかつ費用対効果の高い検出が可能と考えられるため、将来的に広く実用されることが期待できるとしている。

論文リンク:Developing and testing AI-based voice biomarker models to detect cognitive impairment among community dwelling adults: a cross-sectional study in Japan(The Lancet Regional Health – Western Pacific)