AIで外科医の手術技能評価が可能に、人間の審査結果との相関係数0.81を達成 国がん

 国立がん研究センターが、エキスパートによる腹腔鏡手術(腹腔鏡下大腸切除術)60症例の映像を学習した手術技能評価AIを開発した。開発で用いた映像とは別の手術映像を用いて画像認識スコアを算出した結果、日本内視鏡外科学会技術認定制度の審査員が評価した審査スコアと強い相関を得られたという。今後、学会による技術認定審査の補助や、他臓器の腹腔鏡手術へ応用可能な幅広い手術技能評価システムとしての実用化を目指すとしている。

 今回のAIを開発したのは、国立研究開発法人国立がん研究センター 医療機器開発推進部門の伊藤雅昭部門長の研究グループ。外科医の手術技能の評価については、現在熟練医が手術画像を目視して評価する方式となっており、評価者の労力と膨大な時間が必要であるうえに主観性が排除しきれず、トレーニングや技能向上にも活かしづらいという課題がある。研究グループは画像認識AIをこの評価に投入することによって、客観化・定量化することができると考え、端緒として腹腔鏡下大腸切除術の評価をAIで行う研究に取り組んだ。

 具体的には内視鏡外科手術の技能を評価する「日本内視鏡外科学会技術認定制度審査」で極めて高いスコアであった60症例の手術映像を、エキスパートによる手術としてAIに学習させ、手術工程を認識するモデルを開発した。このモデルは各手術の工程を認識し、それがどの程度信頼できるかを示すAIによる画像認識スコアを算出することで、AIが評価したエキスパート手術との類似度を出力する。モデルの構築には「Convolutional Neural Network(畳み込みニューラルネットワーク)」を採用した。

 モデルの検証は、日本内視鏡外科学会の技術認定制度審査結果に基づいて高スコアから低スコアなどの各グループに分けられた、別の60症例の手術映像を用いて行った。その結果、日本内視鏡外科学会技術認定制度審査の評価スコアと、AIによる画像認識スコアとの間の相関係数は0.81と、極めて強い相関を認めたという。

 また、技術認定制度審査スコアの高いグループと低いグループを自動的に識別する能力も評価した。閾値(高スコアと低スコアを識別するための境界値)を設定し、手術映像がどのスコアグループに属するか診断したところ、閾値が0.88のとき、低スコアグループのスクリーニングのための特異度と感度はそれぞれ93.3%と82.2%、低スコアグループのスクリーニングのためのAUROC(the Area Under the Receiver Operation Characteristic)は0.93だった。閾値が0.91のとき、高スコアグループのスクリーニングのための特異度と感度はそれぞれ93.3%と86.7%、高スコアグループのスクリーニングのためのAUROCは0.94となった。

 研究グループでは、開発したAIが自動手術技能評価や自動スクリーニングシステムとして活用できる実現可能性を示したとしており、引き続き、他の種類の内視鏡手術の評価が可能となるよう検討を続けるとしている。

論文リンク:Automatic Surgical Skill Assessment System based on Concordance of Standardized Surgical Field Development using Artificial Intelligence(JAMA Surgery)