映像情報メディア学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2026-02-19 15:45
サッカー競技における構成映像検索用データセットの自動構築に関する検討 ~ Prompt Tuningによるデータセット評価MLLMの高精度化 ~
吉田 陸五箇亮太前田圭介小川貴弘長谷山美紀北大
抄録 (和) 本稿では, サッカー競技を対象とした構成映像検索(CoVR)用データセットの自動構築に関する検討を行う. 近年, スポーツ映像配信サービスの普及により, 試合映像から特定のプレーやシーンを効率的に検索・分析する需要が高まっている. 参照映像とテキストによる変更指示を組み合わせて検索を行うCoVRは, ユーザの意図を柔軟に反映可能なことから, スポーツ分野への応用も期待されている. CoVRの学習には参照映像, 指示テキスト, 検索対象映像からなる大規模なトリプレットデータセットが必要であり, その自動構築では, 指示テキストが映像間の差異を正確に捉えない``ノイズ''が生じることが課題となっている. この問題は複数の選手が同時に関与し, 状況が複雑に変化するサッカー映像において特に顕著である. これに対して本研究では, 実況音声キャプションを要約した行動・結果ラベル, サッカー映像で事前学習された映像特徴を用いてトリプレットを自動構築する. さらに, Prompt Tuningにより高精度化したマルチモーダル大規模言語モデル(MLLM)を用いて, トリプレットの要素間の関係性を自動評価する. 本稿の最後では, MLLM評価と人手評価を比較する実験により, 提案手法の有効性を示す. 
(英) In this paper, we investigate the automatic construction of a dataset for composed video retrieval (CoVR) targeting soccer videos. With the widespread adoption of sports video streaming services in recent years, there is a growing demand to efficiently retrieve and analyze specific plays or scenes from match videos. Combining query video with textual modification instructions for retrieval, CoVR is capable of flexibly reflecting user intent, and its application in the sports domain is also expected. CoVR requires triplets consisting of a query video, an instruction text, and a target video. However, existing automatic construction methods struggle with ``noise" caused by misalignment between instructions and video differences. This issue is particularly pronounced in soccer videos, where multiple players are involved, and situations change in complex ways. To address this, we automatically construct triplets using action/result labels summarized from live commentary captions and video features pre-trained on soccer videos. Furthermore, we employ a multimodal large language model (MLLM) enhanced with prompt tuning to automatically evaluate the relationships among the components of a triplet. At the end, we demonstrate the effectiveness of our proposed framework through experiments comparing MLLM evaluation with human evaluation.
キーワード (和) 構成映像検索 / トリプレット構築 / prompt tuning / データセット評価 / / / /  
(英) Composed video retrieval / triplet construction / prompt tuning / dataset evaluation / / / /  
文献情報 映情学技報, vol. 50, no. 5, ME2026-16, pp. 70-74, 2026年2月.
資料番号 ME2026-16 
発行日 2026-02-12 (MMS, ME, AIT, SIP) 
ISSN Online edition: ISSN 2424-1970
PDFダウンロード

研究会情報
研究会 IEICE-IE IEICE-ITS MMS ME AIT SIP  
開催期間 2026-02-19 - 2026-02-20 
開催地(和) 北海道大学 
開催地(英)  
テーマ(和) 画像処理、一般 
テーマ(英)  
講演論文情報の詳細
申込み研究会 ME 
会議コード 2026-02-IE-ITS-MMS-ME-AIT-SIP 
本文の言語 日本語 
タイトル(和) サッカー競技における構成映像検索用データセットの自動構築に関する検討 
サブタイトル(和) Prompt Tuningによるデータセット評価MLLMの高精度化 
タイトル(英) A Note on Automated Dataset Construction for Composed Video Retrieval in Soccer 
サブタイトル(英) Improvement of MLLM-based Dataset Evaluation via Prompt Tuning 
キーワード(1)(和/英) 構成映像検索 / Composed video retrieval  
キーワード(2)(和/英) トリプレット構築 / triplet construction  
キーワード(3)(和/英) prompt tuning / prompt tuning  
キーワード(4)(和/英) データセット評価 / dataset evaluation  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 吉田 陸 / Riku Yoshida / ヨシダ リク
第1著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第2著者 氏名(和/英/ヨミ) 五箇 亮太 / Ryota Goka / ゴカ リョウタ
第2著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第3著者 氏名(和/英/ヨミ) 前田 圭介 / Keisuke Maeda / マエダ ケイスケ
第3著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第4著者 氏名(和/英/ヨミ) 小川 貴弘 / Takahiro Ogawa / オガワ タカヒロ
第4著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第5著者 氏名(和/英/ヨミ) 長谷山 美紀 / Miki Haseyama / ハセヤマ ミキ
第5著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
第21著者 氏名(和/英/ヨミ) / /
第21著者 所属(和/英) (略称: )
(略称: )
第22著者 氏名(和/英/ヨミ) / /
第22著者 所属(和/英) (略称: )
(略称: )
第23著者 氏名(和/英/ヨミ) / /
第23著者 所属(和/英) (略称: )
(略称: )
第24著者 氏名(和/英/ヨミ) / /
第24著者 所属(和/英) (略称: )
(略称: )
第25著者 氏名(和/英/ヨミ) / /
第25著者 所属(和/英) (略称: )
(略称: )
第26著者 氏名(和/英/ヨミ) / /
第26著者 所属(和/英) (略称: )
(略称: )
第27著者 氏名(和/英/ヨミ) / /
第27著者 所属(和/英) (略称: )
(略称: )
第28著者 氏名(和/英/ヨミ) / /
第28著者 所属(和/英) (略称: )
(略称: )
第29著者 氏名(和/英/ヨミ) / /
第29著者 所属(和/英) (略称: )
(略称: )
第30著者 氏名(和/英/ヨミ) / /
第30著者 所属(和/英) (略称: )
(略称: )
第31著者 氏名(和/英/ヨミ) / /
第31著者 所属(和/英) (略称: )
(略称: )
第32著者 氏名(和/英/ヨミ) / /
第32著者 所属(和/英) (略称: )
(略称: )
第33著者 氏名(和/英/ヨミ) / /
第33著者 所属(和/英) (略称: )
(略称: )
第34著者 氏名(和/英/ヨミ) / /
第34著者 所属(和/英) (略称: )
(略称: )
第35著者 氏名(和/英/ヨミ) / /
第35著者 所属(和/英) (略称: )
(略称: )
第36著者 氏名(和/英/ヨミ) / /
第36著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2026-02-19 15:45:00 
発表時間 15分 
申込先研究会 ME 
資料番号 MMS2026-16, ME2026-16, AIT2026-16, SIP2026-16 
巻番号(vol) vol.50 
号番号(no) no.5 
ページ範囲 pp.70-74 
ページ数
発行日 2026-02-12 (MMS, ME, AIT, SIP) 


[研究会発表申込システムのトップページに戻る]

[映像情報メディア学会ホームページ]


ITE / 映像情報メディア学会