研究

東工大ニュース

手首装着型小型カメラによるジェスチャー認識技術を開発

スマホ操作や手話認識などへの応用を期待

RSS

公開日:2020.10.21

要点

  • 手首装着型小型カメラ1台のみで実現可能な、手指ジェスチャー認識技術の開発に成功。
  • 深層学習で3次元手指姿勢を推定し、高い認識精度を実現。
  • 小型カメラ搭載スマートウォッチを使用した、スマホ操作や手話認識などへの応用を期待。

概要

東京工業大学 情報理工学院 情報工学系の小池英樹教授の研究グループは、手首装着型小型カメラで撮影した手の甲のカラー画像を深層学習ネットワーク[用語1]で学習することで、手指のジェスチャーを認識する技術を開発した。

従来の手指認識は、固定したカメラで撮影するか、手袋型デバイスを使用する必要があり、前者は手指の稼働範囲が制限され、後者は手袋着用の手間があった。本成果によって、認識範囲の制限がなくなり、例えば、手指のジェスチャーだけでスマートフォンのアプリケーションを起動する、音量を変える、といった操作ができるようになる。具体的な使用デバイスとしては、小型カメラ搭載のスマートウォッチなどを想定している。

今回の成果は、東京工業大学の他、米国カーネギーメロン大学ロボティクスインスティテュートのKris M. Kitani教授、オーストラリア New South Wales大学のAaron Quigley教授らとの共同研究によるもので、国際会議「The 33rd Annual ACM Symposium on User Interface Software and Technology (UIST 2020)」で10月23日(現地時間)に発表される。

背景

手指のジェスチャー認識は、家電機器の操作、コンピュータや仮想現実感(VR)における操作入力、あるいは手話認識など広い分野への応用が期待されている。従来技術として、1台以上の固定されたカメラを利用したジェスチャー認識はあるが、カメラの前の限られた範囲内でしか認識ができず、例えば歩行中のジェスチャーなど、広い範囲での認識はできなかった。一方、手袋型デバイスを装着する手法もあるが、手袋着用の手間があること、デバイスが高価であること、一般的な使用には向かないなど問題点がある。

研究成果

本研究で開発した手指ジェスチャー認識システムでは、利用者の手首の甲側に小型カメラを装着する(図1)。具体的な使用デバイスとしては、竜頭の部分に小型カメラを搭載したスマートウォッチを想定している。この小型カメラで撮影した映像には、利用者の手の甲のみが映っている。この画像を入力として、撮影時の手指の3次元姿勢を出力とする深層学習ネットワークを新たに設計・開発した。

図1. システムの概略。手首の甲側につけた小型カメラの映像だけで手指の3次元姿勢を推定する。

図1. システムの概略。手首の甲側につけた小型カメラの映像だけで手指の3次元姿勢を推定する。

図2. 3次元手指姿勢認識用深層学習ネットワーク

図2. 3次元手指姿勢認識用深層学習ネットワーク

カメラが撮影した手の甲のカラー画像と、そのカラー画像を2値化処理した白黒画像の過去数フレームを、それぞれ深層学習ネットワークResNet18[用語2]に入力し、両方の出力を全結合層(FC)[用語3]長短期記憶層(LSTM)[用語4]カルマンフィルタ層(KF)[用語5]、全結合層(FC)で処理することにより、指関節の3次元座標が出力される。これを手指の3次元姿勢再構成モデルで処理することで、3次元手指姿勢を推定する。

評価実験の結果、静的なジェスチャー認識で最高91.4%、タッピングなどの動的なジェスチャー認識で最高89.4%の認識精度を達成した(表1)。今後、データセットの拡充でさらなる精度向上が期待できる。

表1. 静的ジェスチャーと動的ジェスチャーの認識精度の評価実験結果

表1. 静的ジェスチャーと動的ジェスチャーの認識精度の評価実験結果

今後の展開

小型カメラを搭載したスマートウォッチはすでに市販されている。今後は、同様に小型カメラを搭載した腕輪型デバイスも普及すると考えられ、それに伴って、今回開発された手指のジェスチャー認識技術が広く利用されると期待される。

付記

今回の研究成果は、以下の事業・研究領域・研究課題によって得られた。

科学技術振興機構(JST)戦略的創造研究推進事業 チーム型研究(CREST)

研究領域 :
人間と情報環境の共生インタラクション基盤技術の創出と展開
(研究総括:間瀬健二(名古屋大学 大学院 情報学研究科 教授))
研究課題名 :
技能獲得メカニズムの原理解明および獲得支援システムへの展開
研究代表者 :
小池英樹(東京工業大学 情報理工学院 教授)
研究期間 :
2017年10月~2023年3月

用語説明

[用語1] 深層学習ネットワーク : 人間の神経細胞の仕組みをモデルとしたニューラルネットワークを多層化した機械学習システム。

[用語2] ResNet18 : ResNetはMicrosoft Researchが開発した一般物体認識用ニューラルネットで、18は階層の数を表す。

[用語3] 全結合層(FC) : 入力層のノードと出力層のノードが全て結合されているネットワーク。

[用語4] 長短期記憶層(LSTM) : 時系列データの処理に用いられるネットワーク。

[用語5] カルマンフィルタ層(KF) : 動的システムの予測に用いるネットワーク。

発表予定

国際会議 :
タイトル :
Back-Hand-Pose: 3D Hand Pose Estimation for a Wrist-worn Camera via Dorsum Deformation Network
著者 :
Erwin Wu, Hui-Shyong Yeo, Aaron Quigley, Hideki Koike, Kris Kitani

情報理工学院

情報理工学院 ―情報化社会の未来を創造する―
2016年4月に発足した情報理工学院について紹介します。

情報理工学院

学院・系及びリベラルアーツ研究教育院outer

お問い合わせ先

東京工業大学 情報理工学院 情報工学系

教授 小池英樹

E-mail : koike@c.titech.ac.jp
Tel : 03-5734-3526 / Fax : 03-5734-3526

JST事業に関すること

科学技術振興機構 戦略研究推進部 ICTグループ

舘澤博子

E-mail : crest@jst.go.jp
Tel : 03-3512-3526 / Fax : 03-3222-2064

取材申し込み先

東京工業大学 総務部 広報課

E-mail : media@jim.titech.ac.jp
Tel : 03-5734-2975 / Fax : 03-5734-3661

科学技術振興機構 広報課

E-mail : jstkoho@jst.go.jp
Tel : 03-5214-8404 / Fax : 03-5214-8432

RSS