| 講演抄録/キーワード |
| 講演名 |
2026-02-20 15:15
手元周辺物体情報とVLMを用いた作業映像のZero-shot Dense Video Captioning ○山口莉玖・山本洋太・古田諒佑・谷口行信(東京理科大) |
| 抄録 |
(和) |
製造業やサービス業における人材不足を背景に,作業映像を用いた技能伝承やマニュアル作成の自動化が求められている.その中核技術として,映像中の作業区間と対応する説明文を同時に生成する Dense Video Captioning(DVC)が注目されている.しかし,従来の DVC手法は大量の教師データを必要とし,実運用上の制約となっている.また,Vision-Language Model(VLM)を用いた zero-shot 手法では,細かな手先動作や物体の視認性低下により,誤ったキャプション生成やシーンの過分割が生じやすい.そこで本研究では,手元周辺の物体クラス情報を時系列に集約し,作業の意味的変化を明示的に表現した意味的コンテキストとして VLM のプロンプトに付与する zero-shot DVC 手法を提案する.実験の結果,調理および組立作業映像データセットにおいて,キャプション品質とシーン分割精度の双方で比較手法を上回る性能を確認した. |
| (英) |
Against the background of labor shortages in the manufacturing and service industries, there is growing demand for automating skill transfer and manual generation using instructional videos. Dense Video Captioning (DVC), which simultaneously generates temporal scene segments and corresponding textual captions from videos, has emerged as a core technology for this purpose. However, conventional DVC methods require large amounts of annotated training data, posing a significant limitation for practical deployment. Furthermore, zero-shot approaches based on Vision-Language Models (VLMs) tend to produce inaccurate captions and excessive scene segmentation in instructional videos due to fine-grained hand actions and reduced object visibility. To address these issues, this study proposes a zero-shot DVC method that temporally aggregates object class information in hand-centric regions and incorporates it as semantic context into VLM prompts to explicitly represent semantic task changes. Experimental results on cooking and assembly video datasets show that the proposed method outperforms baseline approaches in both caption quality and scene segmentation accuracy. |
| キーワード |
(和) |
作業映像解析 / Dense Video Captioning / Vision-Language Model / Zero-shot / 手元周辺物体認識 / / / |
| (英) |
Instructional Video Analysis / Dense Video Captioning / Vision-Language Model / Zero-shot / Hand-Centric Object Recognition / / / |
| 文献情報 |
映情学技報, vol. 50, no. 5, ME2026-36, pp. 157-160, 2026年2月. |
| 資料番号 |
ME2026-36 |
| 発行日 |
2026-02-12 (MMS, ME, AIT, SIP) |
| ISSN |
Online edition: ISSN 2424-1970 |
| PDFダウンロード |
|
| 研究会情報 |
| 研究会 |
IEICE-IE IEICE-ITS MMS ME AIT SIP |
| 開催期間 |
2026-02-19 - 2026-02-20 |
| 開催地(和) |
北海道大学 |
| 開催地(英) |
|
| テーマ(和) |
画像処理、一般 |
| テーマ(英) |
|
| 講演論文情報の詳細 |
| 申込み研究会 |
ME |
| 会議コード |
2026-02-IE-ITS-MMS-ME-AIT-SIP |
| 本文の言語 |
日本語 |
| タイトル(和) |
手元周辺物体情報とVLMを用いた作業映像のZero-shot Dense Video Captioning |
| サブタイトル(和) |
|
| タイトル(英) |
VLM-based Zero-shot Dense Video Captioning of Instructional Videos Using Hand-Centric Object Context |
| サブタイトル(英) |
|
| キーワード(1)(和/英) |
作業映像解析 / Instructional Video Analysis |
| キーワード(2)(和/英) |
Dense Video Captioning / Dense Video Captioning |
| キーワード(3)(和/英) |
Vision-Language Model / Vision-Language Model |
| キーワード(4)(和/英) |
Zero-shot / Zero-shot |
| キーワード(5)(和/英) |
手元周辺物体認識 / Hand-Centric Object Recognition |
| キーワード(6)(和/英) |
/ |
| キーワード(7)(和/英) |
/ |
| キーワード(8)(和/英) |
/ |
| 第1著者 氏名(和/英/ヨミ) |
山口 莉玖 / Riku Yamaguchi / ヤマグチ リク |
| 第1著者 所属(和/英) |
東京理科大学 (略称: 東京理科大)
Tokyo University of Science (略称: TUS) |
| 第2著者 氏名(和/英/ヨミ) |
山本 洋太 / Yota Yamamoto / ヤマモト ヨウタ |
| 第2著者 所属(和/英) |
東京理科大学 (略称: 東京理科大)
Tokyo University of Science (略称: TUS) |
| 第3著者 氏名(和/英/ヨミ) |
古田 諒佑 / Ryosuke Furuta / フルタ リョウスケ |
| 第3著者 所属(和/英) |
東京理科大学 (略称: 東京理科大)
Tokyo University of Science (略称: TUS) |
| 第4著者 氏名(和/英/ヨミ) |
谷口 行信 / Yukinobu Taniguchi / タニグチ ユキノブ |
| 第4著者 所属(和/英) |
東京理科大学 (略称: 東京理科大)
Tokyo University of Science (略称: TUS) |
| 第5著者 氏名(和/英/ヨミ) |
/ / |
| 第5著者 所属(和/英) |
(略称: )
(略称: ) |
| 第6著者 氏名(和/英/ヨミ) |
/ / |
| 第6著者 所属(和/英) |
(略称: )
(略称: ) |
| 第7著者 氏名(和/英/ヨミ) |
/ / |
| 第7著者 所属(和/英) |
(略称: )
(略称: ) |
| 第8著者 氏名(和/英/ヨミ) |
/ / |
| 第8著者 所属(和/英) |
(略称: )
(略称: ) |
| 第9著者 氏名(和/英/ヨミ) |
/ / |
| 第9著者 所属(和/英) |
(略称: )
(略称: ) |
| 第10著者 氏名(和/英/ヨミ) |
/ / |
| 第10著者 所属(和/英) |
(略称: )
(略称: ) |
| 第11著者 氏名(和/英/ヨミ) |
/ / |
| 第11著者 所属(和/英) |
(略称: )
(略称: ) |
| 第12著者 氏名(和/英/ヨミ) |
/ / |
| 第12著者 所属(和/英) |
(略称: )
(略称: ) |
| 第13著者 氏名(和/英/ヨミ) |
/ / |
| 第13著者 所属(和/英) |
(略称: )
(略称: ) |
| 第14著者 氏名(和/英/ヨミ) |
/ / |
| 第14著者 所属(和/英) |
(略称: )
(略称: ) |
| 第15著者 氏名(和/英/ヨミ) |
/ / |
| 第15著者 所属(和/英) |
(略称: )
(略称: ) |
| 第16著者 氏名(和/英/ヨミ) |
/ / |
| 第16著者 所属(和/英) |
(略称: )
(略称: ) |
| 第17著者 氏名(和/英/ヨミ) |
/ / |
| 第17著者 所属(和/英) |
(略称: )
(略称: ) |
| 第18著者 氏名(和/英/ヨミ) |
/ / |
| 第18著者 所属(和/英) |
(略称: )
(略称: ) |
| 第19著者 氏名(和/英/ヨミ) |
/ / |
| 第19著者 所属(和/英) |
(略称: )
(略称: ) |
| 第20著者 氏名(和/英/ヨミ) |
/ / |
| 第20著者 所属(和/英) |
(略称: )
(略称: ) |
| 第21著者 氏名(和/英/ヨミ) |
/ / |
| 第21著者 所属(和/英) |
(略称: )
(略称: ) |
| 第22著者 氏名(和/英/ヨミ) |
/ / |
| 第22著者 所属(和/英) |
(略称: )
(略称: ) |
| 第23著者 氏名(和/英/ヨミ) |
/ / |
| 第23著者 所属(和/英) |
(略称: )
(略称: ) |
| 第24著者 氏名(和/英/ヨミ) |
/ / |
| 第24著者 所属(和/英) |
(略称: )
(略称: ) |
| 第25著者 氏名(和/英/ヨミ) |
/ / |
| 第25著者 所属(和/英) |
(略称: )
(略称: ) |
| 第26著者 氏名(和/英/ヨミ) |
/ / |
| 第26著者 所属(和/英) |
(略称: )
(略称: ) |
| 第27著者 氏名(和/英/ヨミ) |
/ / |
| 第27著者 所属(和/英) |
(略称: )
(略称: ) |
| 第28著者 氏名(和/英/ヨミ) |
/ / |
| 第28著者 所属(和/英) |
(略称: )
(略称: ) |
| 第29著者 氏名(和/英/ヨミ) |
/ / |
| 第29著者 所属(和/英) |
(略称: )
(略称: ) |
| 第30著者 氏名(和/英/ヨミ) |
/ / |
| 第30著者 所属(和/英) |
(略称: )
(略称: ) |
| 第31著者 氏名(和/英/ヨミ) |
/ / |
| 第31著者 所属(和/英) |
(略称: )
(略称: ) |
| 第32著者 氏名(和/英/ヨミ) |
/ / |
| 第32著者 所属(和/英) |
(略称: )
(略称: ) |
| 第33著者 氏名(和/英/ヨミ) |
/ / |
| 第33著者 所属(和/英) |
(略称: )
(略称: ) |
| 第34著者 氏名(和/英/ヨミ) |
/ / |
| 第34著者 所属(和/英) |
(略称: )
(略称: ) |
| 第35著者 氏名(和/英/ヨミ) |
/ / |
| 第35著者 所属(和/英) |
(略称: )
(略称: ) |
| 第36著者 氏名(和/英/ヨミ) |
/ / |
| 第36著者 所属(和/英) |
(略称: )
(略称: ) |
| 講演者 |
第1著者 |
| 発表日時 |
2026-02-20 15:15:00 |
| 発表時間 |
15分 |
| 申込先研究会 |
ME |
| 資料番号 |
MMS2026-36, ME2026-36, AIT2026-36, SIP2026-36 |
| 巻番号(vol) |
vol.50 |
| 号番号(no) |
no.5 |
| ページ範囲 |
pp.157-160 |
| ページ数 |
4 |
| 発行日 |
2026-02-12 (MMS, ME, AIT, SIP) |
|