千葉工業大学、ディープラーニング用世界最大の動画キャプションデータセットを公開

NEWSAI,ディープラーニング,医療ICT,医療IT,千葉工業大学

 

 

千葉工業大学 は、日本語では世界初となる「世界最大の動画キャプションデータセット」を構築した。ディープラーニングの訓練用データとして用いれば、動画を日本語に変換するモデルを構築することができるという。、2019年3月12日よりインターネット上での公開を開始する。

約8万本の動画に40万個弱のキャプションが付加されたデータを公開

ディープラーニングの長足の発展により様々な産業分野で人工知能の応用が行われるようになっている。少子高齢化が進展する社会に対応する、育児や介護など人を対象とした人工知能活用も大いに期待されているが、そのためには人の動作の認識、認識した内容の言語化などの能力が必要にとなる。

千葉工業大学 人工知能・ソフトウェア技術研究センター(ステアラボ)と国立研究開発法人 産業技術総合研究所(産総研)と国立研究開発法人 新エネルギー・産業技術総合開発機構(NEDO)は、2016 年より、この領域の研究に貢献できる人の動作のきめ細かい認識の研究に取り組んできた。2018年7月には、ディープラーニングによる動作認識モデル構築のための日常シーンをおさめた動作動画10万本からなるデータセット 「STAIR Actions」を構築し公開していたが、今回、 STAIR Actions に含まれる動画 79,822 本の動画に対し、日本語による 399,233 個のキャプションを付加したデータセットを構築した。人の動作動画キャプションデータセットとしてはマイクロソフト社の 26 万件を超えて世界最大規模の、また日本語としては初の大規模データセットであるという。これにより、日本語に基づく動画と言語をつなぐマルチモーダル研究が一気に加速することが期待される。

データセットは2019年3月12日より、インターネット上で公開されている。人工知能研究に限るなどの利用規約を守れば無料でダウンロードできる。

関連記事