通話音声から声の状態を診断する基礎技術開発、遠隔診療での構音障害検出目指す 豊技大

NEWS

 遠隔医療と対面診療の臨床的な環境の差を埋める技術の実用化が長く期待されているが、豊橋技術科学大学の研究者が、人間の発声メカニズムにおける声帯振動のピッチを通話音声から推定する手法を開発した。音声の振幅及び位相スペクトルから抽出された特徴量を複素平面上で統合してピッチを推定するもので、パーキンソン病などの神経変性疾患の重症化を防止するための構音障害の検出を、遠隔でも可能にしたいと取り組みを進める。

「位相スペクトル」を加えた音声周波数解析を提案

 研究を進めているのは、豊橋技術科学大学 IT 活用教育センターの細田侑也助教。パーキンソン病などの神経変性疾患の重症化を防止するためには、初期症状である構音障害を早期に診断することが望ましい。構音障害の特徴は「声の震え」「呼気の乱れ」といったものが挙げられるが、山間部などの遠隔地での対面による検査実施は困難であることから、通信機器を介して回診する遠隔医療により、自動的に構音障害を診断するシステムの開発を目指している。

 構音障害の患者には、肺から放出された空気で生じる声帯振動が喉や口腔で共鳴して声が生成されるという発声メカニズムに異常が生じている。先行研究では、声帯振動に関する状態を診断するために振動周期(ピッチ)を推定することを目的とし、音声の周波数解析で得られる振幅スペクトルに関する特徴量に基づいて、背景雑音に対しても頑健なピッチ計測手法が考案されている。しかし遠隔医療における通話音声では、通信規格により振幅スペクトルが一部欠如しているため、情報量が削減されている振幅スペクトルから特徴量を抽出すると、ピッチを誤って推定する恐れがある。

 このため、今回の研究では、振幅スペクトルに加え周波数解析の副産物である「位相スペクトル」から、追加で特徴量を抽出する手法を着想。まず、時間方向及び周波数方向における位相のズレとピッチの関係式を導出して、観測された位相のズレを関係式に当てはめることで、ピッチを推定できることを検証した。この知見に基づいて、関係式への当てはまり具合を定量的に評価する特徴量を新たに位相スペクトルから抽出、最終的に、振幅スペクトルから抽出される特徴量と複素平面上で統合することで、背景雑音に対する頑健性を維持しつつ、通話音声のピッチ推定で生じる特徴量不足を補完した。

 振幅スペクトルのみを使用する先行研究では、帯域制限で情報量が削減されているため、本来よりも高くピッチを推定した。一方で提案法では、振幅及び位相スペクトルに関する特徴量を用いて通話音声から正確にピッチを推定できた。また、誤差が生じた区間の割合を表す評価指標 Gross PitchError (GPE)では、先行研究の 42.2 %に対して、提案法は 9.5 %まで改善。加えて、背景雑音が付加された通話音声に対しても 15.2 %を達成し、頑健性を確認できたという。

 今回の研究では声帯振動の異常を検出するために「ピッチ推定」に着目したが、呼吸器や口腔の異常も構音障害を引き起こす要因であり、今後は他の症例に関しても位相スペクトルから関連する特徴量を抽出することに取り組むという。また、それらの特徴量を総合的に解析することで、遠隔医療において有効に機能する構音障害診断システムを開発したいとしている。

論文リンク:Complex-Domain Pitch Estimation Algorithm for Narrowband Speech Signals(IEEE/ACM Transactions on Audio, Speech,and Language Processing vol. 31) 

関連記事

NEWS

Posted by medit-tech-admin