手元周辺物体情報とVLMを用いた作業映像のZero-shot Dense Video Captioning

山口,莉玖; 山本,洋太; 古田,諒佑; 谷口,行信

映像情報メディア学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
技報オンライン

講演抄録／キーワード
講演名		2026-02-20 15:15 手元周辺物体情報とVLMを用いた作業映像のZero-shot Dense Video Captioning ○山口莉玖・山本洋太・古田諒佑・谷口行信（東京理科大）
抄録	（和）	製造業やサービス業における人材不足を背景に，作業映像を用いた技能伝承やマニュアル作成の自動化が求められている．その中核技術として，映像中の作業区間と対応する説明文を同時に生成する Dense Video Captioning（DVC）が注目されている．しかし，従来の DVC手法は大量の教師データを必要とし，実運用上の制約となっている．また，Vision-Language Model（VLM）を用いた zero-shot 手法では，細かな手先動作や物体の視認性低下により，誤ったキャプション生成やシーンの過分割が生じやすい．そこで本研究では，手元周辺の物体クラス情報を時系列に集約し，作業の意味的変化を明示的に表現した意味的コンテキストとして VLM のプロンプトに付与する zero-shot DVC 手法を提案する．実験の結果，調理および組立作業映像データセットにおいて，キャプション品質とシーン分割精度の双方で比較手法を上回る性能を確認した．
	（英）	Against the background of labor shortages in the manufacturing and service industries, there is growing demand for automating skill transfer and manual generation using instructional videos. Dense Video Captioning (DVC), which simultaneously generates temporal scene segments and corresponding textual captions from videos, has emerged as a core technology for this purpose. However, conventional DVC methods require large amounts of annotated training data, posing a significant limitation for practical deployment. Furthermore, zero-shot approaches based on Vision-Language Models (VLMs) tend to produce inaccurate captions and excessive scene segmentation in instructional videos due to fine-grained hand actions and reduced object visibility. To address these issues, this study proposes a zero-shot DVC method that temporally aggregates object class information in hand-centric regions and incorporates it as semantic context into VLM prompts to explicitly represent semantic task changes. Experimental results on cooking and assembly video datasets show that the proposed method outperforms baseline approaches in both caption quality and scene segmentation accuracy.
キーワード	（和）	作業映像解析 / Dense Video Captioning / Vision-Language Model / Zero-shot / 手元周辺物体認識 / / /
	（英）	Instructional Video Analysis / Dense Video Captioning / Vision-Language Model / Zero-shot / Hand-Centric Object Recognition / / /
文献情報		映情学技報, vol. 50, no. 5, ME2026-36, pp. 157-160, 2026年2月.
資料番号		ME2026-36
発行日		2026-02-12 (MMS, ME, AIT, SIP)
ISSN		Online edition: ISSN 2424-1970
PDFダウンロード

研究会情報
研究会	IEICE-IE IEICE-ITS MMS ME AIT SIP
開催期間	2026-02-19 - 2026-02-20
開催地（和）	北海道大学
開催地（英）
テーマ（和）	画像処理、一般
テーマ（英）
講演論文情報の詳細
申込み研究会	ME
会議コード	2026-02-IE-ITS-MMS-ME-AIT-SIP
本文の言語	日本語
タイトル（和）	手元周辺物体情報とVLMを用いた作業映像のZero-shot Dense Video Captioning
サブタイトル（和）
タイトル（英）	VLM-based Zero-shot Dense Video Captioning of Instructional Videos Using Hand-Centric Object Context
サブタイトル（英）
キーワード(1)（和/英）	作業映像解析 / Instructional Video Analysis
キーワード(2)（和/英）	Dense Video Captioning / Dense Video Captioning
キーワード(3)（和/英）	Vision-Language Model / Vision-Language Model
キーワード(4)（和/英）	Zero-shot / Zero-shot
キーワード(5)（和/英）	手元周辺物体認識 / Hand-Centric Object Recognition
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	山口莉玖 / Riku Yamaguchi / ヤマグチリク
第1著者所属（和/英）	東京理科大学 (略称：東京理科大) Tokyo University of Science (略称： TUS)
第2著者氏名（和/英/ヨミ）	山本洋太 / Yota Yamamoto / ヤマモトヨウタ
第2著者所属（和/英）	東京理科大学 (略称：東京理科大) Tokyo University of Science (略称： TUS)
第3著者氏名（和/英/ヨミ）	古田諒佑 / Ryosuke Furuta / フルタリョウスケ
第3著者所属（和/英）	東京理科大学 (略称：東京理科大) Tokyo University of Science (略称： TUS)
第4著者氏名（和/英/ヨミ）	谷口行信 / Yukinobu Taniguchi / タニグチユキノブ
第4著者所属（和/英）	東京理科大学 (略称：東京理科大) Tokyo University of Science (略称： TUS)
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
第21著者氏名（和/英/ヨミ）	/ /
第21著者所属（和/英）	(略称： ) (略称： )
第22著者氏名（和/英/ヨミ）	/ /
第22著者所属（和/英）	(略称： ) (略称： )
第23著者氏名（和/英/ヨミ）	/ /
第23著者所属（和/英）	(略称： ) (略称： )
第24著者氏名（和/英/ヨミ）	/ /
第24著者所属（和/英）	(略称： ) (略称： )
第25著者氏名（和/英/ヨミ）	/ /
第25著者所属（和/英）	(略称： ) (略称： )
第26著者氏名（和/英/ヨミ）	/ /
第26著者所属（和/英）	(略称： ) (略称： )
第27著者氏名（和/英/ヨミ）	/ /
第27著者所属（和/英）	(略称： ) (略称： )
第28著者氏名（和/英/ヨミ）	/ /
第28著者所属（和/英）	(略称： ) (略称： )
第29著者氏名（和/英/ヨミ）	/ /
第29著者所属（和/英）	(略称： ) (略称： )
第30著者氏名（和/英/ヨミ）	/ /
第30著者所属（和/英）	(略称： ) (略称： )
第31著者氏名（和/英/ヨミ）	/ /
第31著者所属（和/英）	(略称： ) (略称： )
第32著者氏名（和/英/ヨミ）	/ /
第32著者所属（和/英）	(略称： ) (略称： )
第33著者氏名（和/英/ヨミ）	/ /
第33著者所属（和/英）	(略称： ) (略称： )
第34著者氏名（和/英/ヨミ）	/ /
第34著者所属（和/英）	(略称： ) (略称： )
第35著者氏名（和/英/ヨミ）	/ /
第35著者所属（和/英）	(略称： ) (略称： )
第36著者氏名（和/英/ヨミ）	/ /
第36著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2026-02-20 15:15:00
発表時間	15分
申込先研究会	ME
資料番号	MMS2026-36, ME2026-36, AIT2026-36, SIP2026-36
巻番号（vol）	vol.50
号番号（no）	no.5
ページ範囲	pp.157-160
ページ数	4
発行日	2026-02-12 (MMS, ME, AIT, SIP)

[研究会発表申込システムのトップページに戻る]

[映像情報メディア学会ホームページ]

ITE / 映像情報メディア学会