「自己教師あり学習」で画像診断支援AIの精度向上に期待、腎病理画像解析で判別能上昇 阪大ら
人工知能(AI)の開発に新たな手法の可能性が提示された。ラベル付きデータの数が少なくても、そのデータから自己学習する「自己教師あり学習」の手法を採用し、腎疾患分類を行う AIを開発したところ、その判別能は従来手法より上昇したという。
「教師あり学習」の画像診断分野への応用
研究成果を発表したのは大阪大学医学部医学科6年の安部 政俊さん、九州大学データ駆動イノベーション推進本部 新岡 宏彦 教授、大阪大学大学院医学系研究科 松井 功 講師、猪阪 善隆 教授(腎臓内科学)の研究グループ。
深層学習は腎生検病理画像解析に有効であることが知られているが、ラベル付きデータが乏しいこともあり、この学習手法でのAIアルゴリズムの開発が難しい状況だという。そこで研究グループは、近年機械学習の分野で注目され大規模言語モデル等の開発でも成果をあげている「自己教師あり学習」の手法に着目した。
自己教師あり学習とは、既存の従来手法と比べ、ラベル付きデータが少なくてもラベルなしのデータからパターンや特徴を発見し、分類モデルを構築していける特長がある。研究グループではそのなかでも近年もっとも洗練され応用されつつあるDINO(self-distillation with no labels)を採用し、診断支援AIモデルの開発と検証を行った。具体的には、大阪大学医学部附属病院腎臓内科で腎生検を受けた384例のPAS染色画像中の10,423枚の糸球体画像に適応し、その判別能を検証した。
まず、DINO学習済みモデルによって生成された特徴マップを可視化するために主成分分析(PCA)※1を用いると、糸球体の構成要素ごとに色が分かれ、異なる組織には異なる主成分の要素が強く出ていることが確認できた。
次に、DINO学習済みモデルまたは従来のImageNet※2学習済みモデルを用いて分類タスクを学習させ、受信者動作特性曲線下面積(ROC_AUC)などの指標を用いて性能を評価した。分類タスクとして微小糸球体病変、メサンギウム増殖性糸球体腎炎、膜性腎症、糖尿病性腎症の4疾患分類と、高血圧、蛋白尿、血尿などの臨床パラメータ分類の2つを用いた。
結果、疾患分類では、DINO学習済みモデル(ROC_AUC=0.934)がImageNet学習済みモデル(ROC_AUC=0.892)を上回った。ラベル付きデータが制限された場合、ImageNet学習済みモデルのROC_AUCは0.763[95%信頼区間:0.724-0.802]に低下したが、DINO学習済みモデルは優れた性能を維持した(ROC_AUC=0.882 95%信頼区間:0.862-0.903)。DINO学習済みモデルはいくつかの臨床パラメータにおいてもより高いROC_AUCを示した。
研究グループでは「自己教師あり学習」を腎糸球体分類に適応することで、最小限のラベル付けでも高い性能で疾患分類を行うことができることを示せたとしており、この手法を用いればデジタル病理学における深層学習の応用の効率化が進み、さらなる発展を遂げることが期待できるとしている。
※1 主成分分析(PCA)
多数の変数を持つデータから最も重要な情報を抽出し、より少ない新しい変数(主成分)に要約する統計手法で、データの解釈を容易にする。
※2 ImageNet
画像認識の研究で用いるために設計された大規模な一般画像のデータセット。