岐路を迎えたビッグデータ分析によるインフルエンザ流行予想、今年は?
2010年代に入って、ビッグデータ、特につぶやきを材料としたインフルエンザ予想の動きが始まった。一時期は感冒薬を販売する製薬会社が特設サイトを開設するなど話題になったが、継続して分析を行なっている組織や団体は、TwitterのAPIポリシーの変更もあり一時期よりは下火になっている。が、今年は例年より流行が早そうだという発表が、従前から予測を発表しているYahoo!Japanから行なわれ、改めて注目されている。ビッグデータ分析のはしりとも言われるインフルエンザ流行予測の現状を追ってみた。
Yahoo!JAPANが「11月18日には流行入り宣言が出るレベルに」と予測
2016年11月16日、Yahoo!JAPANは「Yahoo!JAPANビッグデータレポート」にて、ヤフー検索データを使ったロジックに当てはめると次回の公開時(11月18日)の数値は「1.05」になるとみられ、流行入り宣言の基準である「1」を超えると見られると発表し話題になった。注目されたのはこの予想値が的中するかであったが、18日に国立感染研究所が発表した数値は「0.84」であった。元の数値が小さいので誤差が少ないように感じられるが、乖離具合をパーセンテージで見ると18%弱となり、数値的な確度としても、なかなかに評価の難しいものになった。
先行していたGoogle Flu Trendsはお蔵入りに
インフルエンザの流行を、ツィートなどネットに流れる情報から推測する試みはGoogleが先行していた。2008年に研究的な試みとして始まったGoogle Flu Trendsは、世界29カ国の検索データと、そこから導き出される世界的な流行を予測した。予測発表の速さにおいては、オンタイムに流れている検索データからわずか1日で解析結果を出せるとして話題になった。この先行例が、各国における他のインフルエンザ流行分析の見本となったともいえる。
しかし2014年3月に、その流れに冷や水を浴びせる衝撃的な論文が発表された。Google Flu Trendsは過去108週のうち100週においてインフルエンザの流行率を最大50%も過大評価し、2011年8月から誤った予測を出し続けていたというのだ。この論文に対する有効な反論やアップデートを行なうことができなかったGoogle Flu Trendsは、翌年開発と公開を停止した。
当たり前のことだが、ビッグデータ分析といってもデータの対象はインターネットに流れているものだけではない。特にサーベイランスとして妥当な予測を発表するには、複合的にデータを集め統合する必要がある。その意味で、あえてインターネットの中だけで完結させようとしたこのコンセプトが、確度を高めるという課題で挫折してしまったのは当然の帰結とも言える。
指標ではなく、ベクトル予測として生き残るか。今後の新サービスに飲み込まれるか
Yahoo!JAPANビッグデータレポートと同じほどのデータを扱っているわけではないが、同じような予測手法を取っているサイトとして「ツィートフル」がある。こちらはTwitterのつぶやきのみを対象として、インフルエンザに罹患したと推測できるワード「リレンザ」「タミフル」「イナビル」「学級閉鎖」を含むツィートをカウントし、その量で流行を推測するという極めてシンプルなもの。こちらのサイトでも、現在の状況を見ると、Yahoo!JAPANと同じように流行域に入りそうな増加の流れを示している。同じような傾向を示せることは、過去のデータを見ても同じである。
[外部サイト]Yahoo!JAPAN データ分析でみるインフルエンザ感染状況2015-2016
[外部サイト]ツィートフル 2015年の時系列グラフ
現在サービスを行なっているところが少ないこともあり、ざっくりとした推察であることをご容赦いただきたいが、インターネット上のデータだけで解析する限りは、正確性を追うよりも大雑把な流行の始まりや具合を見せる、といった役割にとどめた方が適切なのではと考えられる。逆にそう割り切れば、簡単にすぐそれなりの予測が出せるということも、この2つの事例は示しているのではないだろうか。
また既報の通りだが、今年から順天堂大学による新しい研究も始まっている。アプリを使って直接的に患者からの報告を収集しようという試みだ。こちらは医療関係者が主導する極めて医学的なアプローチであるが、それがために正確性において相当な検証がなされる。こういった研究の成果が、既存の予測サービスとどのような違いを見せるか、今後注目されるだろう。