データ駆動型アプローチに基づく映像検索のための意味インデクシング開発

研究

公開日：2014.02.14

概要

東京工業大学大学院情報理工学研究科計算工学専攻の井上中順(なかまさ)大学院生と篠田浩一教授らはキヤノンの協力で、インターネット上の映像データからタグやメタデータなどのテキスト情報を用いずに、必要な映像を検索する新手法「映像意味インデクシングシステム」を開発した。これは自動車・椅子などの「物体」、夕焼け・家族団らんなどの「シーン」、結婚式・花火などの「イベント」など、人間にとって意味のある「概念」を検出することができる。

研究の背景

インターネット上の映像データが急激に増加している。それらの大部分はユーザーが作成したもので、極めて多様であり、品質も良くなく、また、十分なテキストタグがついていない。このため、映像の画像特徴や音響特徴を利用した映像検索手法の開発が強く求められていた。

研究成果

井上院生、篠田教授らは確率論に基づくデータ駆動型手法による検出システムを開発した。概念を混合ガウス分布(Gaussian Mixture Model; GMM)でモデル化し、そのパラメータを事後確率最大化推定手法で推定した。そのGMMの平均ベクトルを連結したGMMスーパーベクトルを入力としたサポートベクターマシンにより検出を行う。東工大のスーパーコンピュータ「TSUBAME」がこのタスクの遂行に必要な大規模な計算資源を提供した。

今回、開発したシステムは、毎年1回米国国立標準技術研究所が開催する国際競争型映像検索・評価ワークショップ「TRECVID」において、世界各国の一流大学、研究所15チームと競い、2011年、2012年と2年続けて、映像意味インデクシングタスクで最も高い性能を示した。

今後の展開

開発したシステムは、テキスト入力で映像を検索するシステムを構築するのに役立つだけでなく、「自動車のタイヤを交換する」、「サンドイッチを作る」など、複数の概念から構成される複雑なイベントを検出するための重要なツールとなる。

Examples of video search results

論文情報

執筆者:	Koichi Shinoda, Nakamasa Inoue
論文タイトル:	Reusing Speech Techniques for Video Semantic Indexing
雑誌名:	IEEE signal processing magazine, vol. 30, no. 2, pp. 118-122, Mar, 2013
執筆者:	Nakamasa Inoue, Koichi Shinoda
論文タイトル:	A Fast and Accurate Video Semantic-Indexing System Using Fast MAP Adaptation and GMM Supervectors
雑誌名:	IEEE Transactions on Multimedia, vol. 14, no. 4-2, pp. 1196-1205, Aug, 2012
DOI:	10.1109/TMM.2012.2191395

お問合せ先
理工学研究科計算工学専攻
教授　篠田浩一
Tel 03-5734-3480