エージェントの発話とジェスチャによる
調理動画支援システムの構築
概要
本研究では、調理動画における視聴者理解を支援するエージェント型インターフェースにおいて, エージェントの説明箇所を自動切り出しする手法を提案します。 本手法は、調理場面におけるさまざまな食材や調理器具の位置・状態を言語情報と対応づけて解析し、 レシピ文中の説明発話(例:「タマネギを微塵切りにします。」)と対応する画像内の領域(食材や調理器具など)を、 GPT-4.1を用いて抽出した上で、エージェント対話向けに補正する手法です。 一般の被験者120名による評価実験の結果、提案手法の画像切り出しは、 人間による画像切り出しと同等の精度であることが分かりました。今後はエージェントの動作生成や、 調理の学習に対する有効性の検証に取り組む予定です。
背景と課題
調理動画学習の課題
調理動画には映像・音声・字幕といった様々な情報が同時に提示されるため、 調理経験の少ない初心者にとっては以下のような困難があります:
注意の分散
映像・音声・字幕が同時に提示されるため、「どこに注目すべきか」が分かりにくく、注意が分散しやすい
視覚的な注意喚起の不足
包丁の扱いや火の使用、油はねなどの危険な場面でも映像が淡々と進行するため、危険性が十分に伝わらず、視聴者が危険箇所を見落とす恐れがある
これらの課題により、視聴者が調理手順を誤って解釈したり、危険箇所を見落とす可能性があり、 調理に対する理解促進および安全性の観点から改善が求められます。
提案手法:調理動画支援システム
料理番組のように、エージェントが視聴者に寄り添って「ここを見てください」と 視線を誘導し、補足説明や注意喚起を行うシステムを目指します。
視線誘導
画像から重要な箇所(食材・調理器具など)を自動切り出しし、 エージェントが指差しジェスチャで明確に示します。
音声による補足説明
「しっかり炒めるとはこういう状態です」「包丁で手を切らないよう注意してください」 など、タイミングに応じた説明を提供します。
処理フロー
本研究の調理動画支援システムは、入力画像と説明発話を受け取り、画像切り出し、ジェスチャ選択、配置の3つのモジュールで処理を行います。 画像切り出しモジュールでは、GPT-4.1 を用いて主要オブジェクト領域を検出・切り出しを行います。 ジェスチャ選択モジュールでは、補足説明を生成し、CLIP によるテキスト類似度と画像類似度を統合して最適なジェスチャを選択します。 配置モジュールでは、エージェントの位置と指差し方向を調整し、視聴者が注目すべき箇所を直感的に理解できるようにします。 これにより、エージェントは「何を」「どこで」「どのように」提示すべきかを推定し、視聴者の注意を効果的に誘導できます。
なぜ画像切り出しが必要か?
エージェントが「ここを見てください」と指差すためには、画像内のどの領域に 注目すべきかを正確に特定する必要があります。本研究では、説明発話(例:「タマネギを微塵切りにします」) から、該当する画像領域(タマネギと包丁)をGPT-4.1を用いて自動抽出することで、 エージェントが指差しに必要な情報を得ることを目的としています。
切り出し画像例
提案手法では、調理シーンの画像と説明発話(タマネギを微塵切りにします。)を入力として、 説明発話と最も関連する画像領域を自動的に抽出し、当該領域を切り出します。 これにより、レシピの各工程における視覚的な焦点を明確化し、視聴者の理解を支援できます。
謝辞
本研究では、国立情報学研究所(NII)の情報学研究データリポジトリ(IDR)より提供されている
OSX 調理映像データセット(COM-Kitchens)を利用させていただきました。
また、エージェントシステムの実装には、MMDAgent-EXおよびCGアバター うかを使用させていただきました。
これらの優れたリソースを提供してくださった関係者の皆様に深く感謝いたします。