企業健保組合の持つ健診データと医療機関の受診データを組み合わせれば、高精度に「医療費を高額消費する患者群」を特定でき、効率的な介入ができるー。その可能性を示す研究が日本の研究者から発表された。医療費削減が叫ばれるなか、国の医療費支出を効率化させる基礎理論となるか注目される。
健診データから36,316人を抽出し、機械学習モデルで解析
今回研究成果を発表したのは東京大学医学部附属病院 大沢樹輝氏、TXP Medical後藤匡啓氏、カリフォルニア大学ロサンゼルス校 津川友介氏、ミナケアの山本雄士代表取締役の研究グループ。
以前から、少数の患者群からの支出が全体の医療費の大部分を占めていることが多くの先行研究で示されている。日本の健保組合が持つデータでも、医療費がかかる患者のうち上位1%, 5%, 10%の患者が、それぞれ全体の26.4%, 47.7%, 60.0%の医療費を使用していることが分かっている。医療費支出を効率的に削減するためには、将来医療費がかかるであろうと予測される(重症化、慢性化が予測される)患者群をいかに早く同定し、早期、または予防的に医療介入することが必要とされている。しかしこれまでの解析手法では、高精度に患者群を同定することは難しいとされてきた。
研究グループでは今回、ランダムフォレストやニューラルネットワークなどといった代表的な機械学習モデルを使用した予測モデルを構築し、従来手法(ロジスティック回帰モデルなど)との比較検証を行った。具体的には、ミナカラの顧客が持つ健診データ36万人のなかからランダムに10%を抽出、その検査データ※1と、医療機関の受診データ(医療費)を対象として、医療費全体の50%を占める上位5%の患者群の同定を試みた。
結果として、機械学習で構築された予測モデルはAUC値:において最高0.84となり、従来手法より有意に高精度であることが示された。研究グループでは、日本の健診データは医療機関が保険会社に請求してから2ヵ月で解析可能となることから、今回構築した予測モデルはほぼリアルタイムに将来の「高額医療費患者」を正確に予測することが可能だとしている。なおこの研究成果は、ネイチャー・グループの国際雑誌であるnpj Digital Medicine誌に2020年11月11日付で掲載された。
※1 対象とした検査データ
年齢、性別、体の大きさの測定値[身長、体重、腰囲]、収縮期および拡張期の血圧レベル、検査データ(空腹時血糖、ヘモグロビンA1c [HbA1c])を選択しました。 、トリグリセリド[TG]、高密度リポタンパク質コレステロール[HDL-C]、低密度リポタンパク質コレステロール[LDL-C]、アスパラギン酸アミノトランスフェラーゼ[AST]、アラニンアミノトランスフェラーゼ[ALT]、ガンマ-グルタミルトランスペプチダーゼ[γGTP])、心電図[ECG]異常、および調査回答(薬物使用[抗高血圧、低血糖および抗高脂血症薬]、既往歴