表題番号:2013B-186 日付:2014/04/11
研究課題動的動画像中の人物や物体の挙動解析と3次元構造復元の研究
研究者所属(当時) 資格 氏名
(代表者) 理工学術院 教授 大谷 淳
研究成果概要
 本研究では、移動するKinectセンサにより獲得されるRGB-D(距離)動画像から抽出されたsuper-voxelに基づき、移動物体の追跡を行うとともに、その移動物体の密な三次元構造を復元する方法を検討する。さらに、ビデオ画像から抽出された特徴をベイジアンネットに入力し、人物の無意識な行動を認識する方法を検討する。具体的には以下の通りである。
(1)移動RGBD動画像からの移動物体追跡に関する検討
移動する Kinect 等のRGBD カメラで複数の移動物体を撮像したシーンの特徴点を背景と各移動物体にクラスタリングする方法には,RANSAC を繰り返し適用する方法等,様々な方法が存在する.Delong らは,マルチラベルのGraphCut を特徴点の分類に用いた手法を提案した。しかし、Delong らの手法では、初期クラスタをランダムに特徴点を3点選択していたため、3点が複数の物体にまたがる場合、処理の精度が低下する問題があった。
 そこで本研究では、以下の処理を提案する。(1) RGBD画像をsuper-voxelに分割し、ランダムな3つの特徴点の選択を1つのsuper-voxelに限定して行い、初期クラスタを作成する。(2) 初期クラスタから回転・並進情報を推定する。(3) 各特徴点に対して、推定した回転・並進情報を施すことにより得られる点の位置と、その特徴点におけるオプティカルフローの終点との誤差を計算し、super-voxel内の特徴点の誤差の合計をデータ項とする。(4) Super-voxel間のドロネー図を作成し,隣接するsuper-voxelを結ぶエッジの本数を平滑化項として利用する。(5) グラフカットを行い,ラベルを統合する。グラフカットのエネルギー式は,単一のノード(super-voxel)のみで決まる項であるデータ項と,隣接ノードとの相関によって決まる平滑化項と、ラベルの数とラベル毎のエネルギーの積となる統合処理項の3 つの項で構成される。ラベルの統合の結果によるデータ項・平滑化項のエネルギーの増加よりも、ラベル数の減少によるラベル数の項のエネルギーの減少が大きい場合は統合処理が進む。その結果、ラベルの数が未知の場合でも、適切なラベルの数を自動的に選択することが可能である。
 実験を行い、本提案手法の有効性を示す結果を得た。
(2)人物の無意識的な行動の認識法の検討
 店舗内の顧客の購買行動、特に、迷って/迷わずに、購入したのか/購入しなかったのか、を認識可能な手法を検討した。このような購買行動には定型パターンは乏しいので、ベイジアンネットワークを用いて認識を行う方法を従来から検討している。ただ、従来の検討では、ベイジアンネットワークの各ノードの21個の画像特徴量は、手動で取得していた。良好な認識結果を得ていたものの、手動特徴抽出は実用的とは言えない。そこで、本期間は、画像特徴量を自動的に得る方法を検討した。Felzenszwalb らが提案したDeformable Part Model(DPM)等を利用して、人物が様々な姿勢をとっても追跡が可能な手法を提案し、前述の21個の特徴のうち10個が自動的に計算可能となった。認識実験の結果、若干まだ認識性能が手動特徴の場合より劣るが、有効性の見通しを得たと言える。