映像情報メディア学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2026-02-20 15:15
手元周辺物体情報とVLMを用いた作業映像のZero-shot Dense Video Captioning
山口莉玖山本洋太古田諒佑谷口行信東京理科大
抄録 (和) 製造業やサービス業における人材不足を背景に,作業映像を用いた技能伝承やマニュアル作成の自動化が求められている.その中核技術として,映像中の作業区間と対応する説明文を同時に生成する Dense Video Captioning(DVC)が注目されている.しかし,従来の DVC手法は大量の教師データを必要とし,実運用上の制約となっている.また,Vision-Language Model(VLM)を用いた zero-shot 手法では,細かな手先動作や物体の視認性低下により,誤ったキャプション生成やシーンの過分割が生じやすい.そこで本研究では,手元周辺の物体クラス情報を時系列に集約し,作業の意味的変化を明示的に表現した意味的コンテキストとして VLM のプロンプトに付与する zero-shot DVC 手法を提案する.実験の結果,調理および組立作業映像データセットにおいて,キャプション品質とシーン分割精度の双方で比較手法を上回る性能を確認した. 
(英) Against the background of labor shortages in the manufacturing and service industries, there is growing demand for automating skill transfer and manual generation using instructional videos. Dense Video Captioning (DVC), which simultaneously generates temporal scene segments and corresponding textual captions from videos, has emerged as a core technology for this purpose. However, conventional DVC methods require large amounts of annotated training data, posing a significant limitation for practical deployment. Furthermore, zero-shot approaches based on Vision-Language Models (VLMs) tend to produce inaccurate captions and excessive scene segmentation in instructional videos due to fine-grained hand actions and reduced object visibility. To address these issues, this study proposes a zero-shot DVC method that temporally aggregates object class information in hand-centric regions and incorporates it as semantic context into VLM prompts to explicitly represent semantic task changes. Experimental results on cooking and assembly video datasets show that the proposed method outperforms baseline approaches in both caption quality and scene segmentation accuracy.
キーワード (和) 作業映像解析 / Dense Video Captioning / Vision-Language Model / Zero-shot / 手元周辺物体認識 / / /  
(英) Instructional Video Analysis / Dense Video Captioning / Vision-Language Model / Zero-shot / Hand-Centric Object Recognition / / /  
文献情報 映情学技報, vol. 50, no. 5, ME2026-36, pp. 157-160, 2026年2月.
資料番号 ME2026-36 
発行日 2026-02-12 (MMS, ME, AIT, SIP) 
ISSN Online edition: ISSN 2424-1970
PDFダウンロード

研究会情報
研究会 IEICE-IE IEICE-ITS MMS ME AIT SIP  
開催期間 2026-02-19 - 2026-02-20 
開催地(和) 北海道大学 
開催地(英)  
テーマ(和) 画像処理、一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 ME 
会議コード 2026-02-IE-ITS-MMS-ME-AIT-SIP 
本文の言語 日本語 
タイトル(和) 手元周辺物体情報とVLMを用いた作業映像のZero-shot Dense Video Captioning 
サブタイトル(和)  
タイトル(英) VLM-based Zero-shot Dense Video Captioning of Instructional Videos Using Hand-Centric Object Context 
サブタイトル(英)  
キーワード(1)(和/英) 作業映像解析 / Instructional Video Analysis  
キーワード(2)(和/英) Dense Video Captioning / Dense Video Captioning  
キーワード(3)(和/英) Vision-Language Model / Vision-Language Model  
キーワード(4)(和/英) Zero-shot / Zero-shot  
キーワード(5)(和/英) 手元周辺物体認識 / Hand-Centric Object Recognition  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 山口 莉玖 / Riku Yamaguchi / ヤマグチ リク
第1著者 所属(和/英) 東京理科大学 (略称: 東京理科大)
Tokyo University of Science (略称: TUS)
第2著者 氏名(和/英/ヨミ) 山本 洋太 / Yota Yamamoto / ヤマモト ヨウタ
第2著者 所属(和/英) 東京理科大学 (略称: 東京理科大)
Tokyo University of Science (略称: TUS)
第3著者 氏名(和/英/ヨミ) 古田 諒佑 / Ryosuke Furuta / フルタ リョウスケ
第3著者 所属(和/英) 東京理科大学 (略称: 東京理科大)
Tokyo University of Science (略称: TUS)
第4著者 氏名(和/英/ヨミ) 谷口 行信 / Yukinobu Taniguchi / タニグチ ユキノブ
第4著者 所属(和/英) 東京理科大学 (略称: 東京理科大)
Tokyo University of Science (略称: TUS)
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
第21著者 氏名(和/英/ヨミ) / /
第21著者 所属(和/英) (略称: )
(略称: )
第22著者 氏名(和/英/ヨミ) / /
第22著者 所属(和/英) (略称: )
(略称: )
第23著者 氏名(和/英/ヨミ) / /
第23著者 所属(和/英) (略称: )
(略称: )
第24著者 氏名(和/英/ヨミ) / /
第24著者 所属(和/英) (略称: )
(略称: )
第25著者 氏名(和/英/ヨミ) / /
第25著者 所属(和/英) (略称: )
(略称: )
第26著者 氏名(和/英/ヨミ) / /
第26著者 所属(和/英) (略称: )
(略称: )
第27著者 氏名(和/英/ヨミ) / /
第27著者 所属(和/英) (略称: )
(略称: )
第28著者 氏名(和/英/ヨミ) / /
第28著者 所属(和/英) (略称: )
(略称: )
第29著者 氏名(和/英/ヨミ) / /
第29著者 所属(和/英) (略称: )
(略称: )
第30著者 氏名(和/英/ヨミ) / /
第30著者 所属(和/英) (略称: )
(略称: )
第31著者 氏名(和/英/ヨミ) / /
第31著者 所属(和/英) (略称: )
(略称: )
第32著者 氏名(和/英/ヨミ) / /
第32著者 所属(和/英) (略称: )
(略称: )
第33著者 氏名(和/英/ヨミ) / /
第33著者 所属(和/英) (略称: )
(略称: )
第34著者 氏名(和/英/ヨミ) / /
第34著者 所属(和/英) (略称: )
(略称: )
第35著者 氏名(和/英/ヨミ) / /
第35著者 所属(和/英) (略称: )
(略称: )
第36著者 氏名(和/英/ヨミ) / /
第36著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2026-02-20 15:15:00 
発表時間 15分 
申込先研究会 ME 
資料番号 MMS2026-36, ME2026-36, AIT2026-36, SIP2026-36 
巻番号(vol) vol.50 
号番号(no) no.5 
ページ範囲 pp.157-160 
ページ数
発行日 2026-02-12 (MMS, ME, AIT, SIP) 


[研究会発表申込システムのトップページに戻る]

[映像情報メディア学会ホームページ]


ITE / 映像情報メディア学会