新型コロナウイルス感染者の公開情報を統合し解析へ クラウドでの取り組み始まる

 あるベンチャー企業が、各自治体が公開している新型コロナウイルス感染者の情報をクラウド上で整理、フォーマット統一していく取り組みを開始した。形式を統一することで、感染対策の立案に有用な解析を行えるようにするためだという。現在クラウド上で同時多発的に、多くのエンジニアがこの取り組みに協力しており、全国の罹患者データが解析可能なデータセットとして蓄積されつつある。

まずは分析可能なデータセット構築へ

 取り組みを開始したのは、AI関連の人材開発・紹介などの事業を行うSIGNATE。事業の一環として、登録エンジニアを対象とするデータ解析スキルを競うコンペティションを多く開催しており、今回はそのスキームを利用し、登録エンジニアに対し各自治体が公表した感染者に関する公開情報をデータ入力、整理するプロジェクト「COVID-19 チャレンジ」を立ち上げた。

 この取り組みではまず「フェーズ1」として、日本国内のCOVID-19罹患者数と患者間の関係データに関する、マシンリーダブルかつデータ分析可能な最大規模のデータセットの構築を目指す。現在Googleドライブ上のシートで作業が進められており、多くの有志のエンジニアがデータ入力を行なっている。現時点(2020年3月24日)では、全感染者の情報が発表より1−2日程度のタイムラグですべて入力されているもようだ。

 続く「フェーズ2」では、構築されたデータセットを用いて様々な統計学的手法によるデータ分析、感染実態に迫るインサイト抽出を目指す。データ整備はCOVID-19の日本国内収束(新規罹患者数0)になった時点まで実施を継続する予定で、成果は、営利・非営利を問わず自由に利用可能なライセンス形態で公開するという。

外部リンク:COVID-19 チャレンジ