映像情報メディア学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2026-02-19 16:15
MLLMを用いた標準作業書の書き換えと階層化による作業映像の作業ステップ検出
小出康友山本洋太古田諒佑谷口行信東京理科大
抄録 (和) 製造品質を支える標準作業書の順守確認は,依然として目視に頼る部分が多く,自動化によるヒューマンエラー削減が課題である.本課題に対し,標準作業書に基づき細かく作業工程(作業ステップ)を作業映像から自動抽出し,手順の適正性を判定する技術の確立が求められる.近年のマルチモーダル大規模言語モデル(MLLM)は学習なしで作業ステップの検出が可能であるが,標準作業書内に専門用語や類似した作業ステップが存在する場合に,検出精度が低下する問題がある.本稿では,この問題に対処するために,標準作業書の記述を詳細化する標準作業書の書き換えと,類似した連続する作業ステップを集約しMLLMに入力する階層性に基づくグループ推論を用いた作業ステップ検出手法を提案する.複数の作業映像を用いた実験の結果,標準作業書の書き換えおよび階層化を行わないベースラインと比較して,提案手法の作業ステップ検出精度$mathrm{R@}m$が向上することを確認した. 
(英) Verification of compliance with standard operating procedures (SOPs) that support manufacturing quality still relies heavily on visual inspection, making automation-driven reduction of human error a key challenge.To address this challenge, establishing technology that automatically extracts detailed work processes (work steps) from operational footage based on SOPs and judges the appropriateness of procedures is required.While recent multimodal large language models (MLLMs) offer training-free work step detection, their detection accuracy tends to decrease when technical terms or similar work steps appear in SOPs. To address this issue, this paper proposes a work step detection method. It involves rewriting existing SOPs to provide more detailed descriptions and using hierarchical group inference. This approach aggregates similar consecutive work steps and inputs them to the MLLM. Experiments using multiple work videos confirmed that the proposed method achieves higher work step detection accuracy $mathrm{R@}m$ compared to a baseline without these enhancements.
キーワード (和) 標準作業書 / 作業映像 / マルチモーダル大規模言語モデル / 動画時間グラウンディング / / / /  
(英) Standard Operating Procedures (SOP) / Assembly Task Video / Multimodal Large Language Model (MLLM) / Video Temporal Grounding (VTG) / / / /  
文献情報 映情学技報, vol. 50, no. 5, ME2026-18, pp. 79-82, 2026年2月.
資料番号 ME2026-18 
発行日 2026-02-12 (MMS, ME, AIT, SIP) 
ISSN Online edition: ISSN 2424-1970
PDFダウンロード

研究会情報
研究会 IEICE-IE IEICE-ITS MMS ME AIT SIP  
開催期間 2026-02-19 - 2026-02-20 
開催地(和) 北海道大学 
開催地(英)  
テーマ(和) 画像処理、一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 ME 
会議コード 2026-02-IE-ITS-MMS-ME-AIT-SIP 
本文の言語 日本語 
タイトル(和) MLLMを用いた標準作業書の書き換えと階層化による作業映像の作業ステップ検出 
サブタイトル(和)  
タイトル(英) MLLM-based Video Temporal Grounding in Procedural Videos via Rewriting Hierarchical Standard Operating Procedures 
サブタイトル(英)  
キーワード(1)(和/英) 標準作業書 / Standard Operating Procedures (SOP)  
キーワード(2)(和/英) 作業映像 / Assembly Task Video  
キーワード(3)(和/英) マルチモーダル大規模言語モデル / Multimodal Large Language Model (MLLM)  
キーワード(4)(和/英) 動画時間グラウンディング / Video Temporal Grounding (VTG)  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 小出 康友 / Kosuke Koide / コイデ コウスケ
第1著者 所属(和/英) 東京理科大学 (略称: 東京理科大)
Tokyo University of Science (略称: TUS)
第2著者 氏名(和/英/ヨミ) 山本 洋太 / Yota Yamamoto / ヤマモト ヨウタ
第2著者 所属(和/英) 東京理科大学 (略称: 東京理科大)
Tokyo University of Science (略称: TUS)
第3著者 氏名(和/英/ヨミ) 古田 諒佑 / Ryosuke Furuta / フルタ リョウスケ
第3著者 所属(和/英) 東京理科大学 (略称: 東京理科大)
Tokyo University of Science (略称: UTokyo)
第4著者 氏名(和/英/ヨミ) 谷口 行信 / Yukinobu Taniguchi / タニグチ ユキノブ
第4著者 所属(和/英) 東京理科大学 (略称: 東京理科大)
Tokyo University of Science (略称: TUS)
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
第21著者 氏名(和/英/ヨミ) / /
第21著者 所属(和/英) (略称: )
(略称: )
第22著者 氏名(和/英/ヨミ) / /
第22著者 所属(和/英) (略称: )
(略称: )
第23著者 氏名(和/英/ヨミ) / /
第23著者 所属(和/英) (略称: )
(略称: )
第24著者 氏名(和/英/ヨミ) / /
第24著者 所属(和/英) (略称: )
(略称: )
第25著者 氏名(和/英/ヨミ) / /
第25著者 所属(和/英) (略称: )
(略称: )
第26著者 氏名(和/英/ヨミ) / /
第26著者 所属(和/英) (略称: )
(略称: )
第27著者 氏名(和/英/ヨミ) / /
第27著者 所属(和/英) (略称: )
(略称: )
第28著者 氏名(和/英/ヨミ) / /
第28著者 所属(和/英) (略称: )
(略称: )
第29著者 氏名(和/英/ヨミ) / /
第29著者 所属(和/英) (略称: )
(略称: )
第30著者 氏名(和/英/ヨミ) / /
第30著者 所属(和/英) (略称: )
(略称: )
第31著者 氏名(和/英/ヨミ) / /
第31著者 所属(和/英) (略称: )
(略称: )
第32著者 氏名(和/英/ヨミ) / /
第32著者 所属(和/英) (略称: )
(略称: )
第33著者 氏名(和/英/ヨミ) / /
第33著者 所属(和/英) (略称: )
(略称: )
第34著者 氏名(和/英/ヨミ) / /
第34著者 所属(和/英) (略称: )
(略称: )
第35著者 氏名(和/英/ヨミ) / /
第35著者 所属(和/英) (略称: )
(略称: )
第36著者 氏名(和/英/ヨミ) / /
第36著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2026-02-19 16:15:00 
発表時間 15分 
申込先研究会 ME 
資料番号 MMS2026-18, ME2026-18, AIT2026-18, SIP2026-18 
巻番号(vol) vol.50 
号番号(no) no.5 
ページ範囲 pp.79-82 
ページ数
発行日 2026-02-12 (MMS, ME, AIT, SIP) 


[研究会発表申込システムのトップページに戻る]

[映像情報メディア学会ホームページ]


ITE / 映像情報メディア学会