史上最大規模の動画データセット「YouTube-8M」公開 (original) (raw)

2016年09月29日 15時19分 ソフトウェア

これまでで最大規模の動画データセットは500種類のスポーツでタグづけされた100万本のYouTube動画を集めた「**Sports-1M**」でしたが、既存の8倍の規模でさらなる多様性を得られるデータセット「YouTube-8M」が登場したことで、動画分析の研究がさらに進歩することが見込まれています。

YouTube-8Mを作るにあたってGoogleの研究チームは、「1:手動で注釈を付ける作業は画像より動画の方が時間がかかる」「2:動画の処理と保管はコンピューター的にとても高コストである」という2つのテーマの克服に取り組みました。

1つ目のテーマを克服するため、チームはYouTubeで一般公開されている動画を適切なナレッジグラフのトピックで識別してアノテーションを自動的に生成する「アノテーションシステム」に着目。自動生成されるアノテーションの品質は動画分析研究に役立てられるレベルを満たしていたとのこと。タグ付けされた動画のデータセットの安定性と品質を保証するため、YouTube-8Mには再生回数1000回以上の一般公開動画だけが使われています。以下のように動画のカテゴリからキーワードを入れると関連するタグを持つ動画をフィルタリングできるようになっており、データセットの多様性と規模を証明しています。

2つ目のテーマである「研究者が動画を研究するためにストレージやリソースが不足する」という問題については、研究用に最適化されたYouTube-8Mを使うことで、高価なマシンを持たない学生でも研究を行えるようになっているとのことです。Googleの研究チームはYouTube-8Mによって新しい研究の促進や、不完全なタグを有効化するアプローチが生まれることなどに期待をかけていると述べています。

2016年09月29日 15時19分00秒 in ソフトウェア, 動画, Posted by darkhorse_log

You can read the machine translated English article here.