サッカー競技における構成映像検索用データセットの自動構築に関する検討 ～ Prompt Tuningによるデータセット評価MLLMの高精度化 ～

吉田,陸; 五箇,亮太; 前田,圭介; 小川,貴弘; 長谷山,美紀

映像情報メディア学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
技報オンライン

講演抄録／キーワード
講演名		2026-02-19 15:45 サッカー競技における構成映像検索用データセットの自動構築に関する検討～ Prompt Tuningによるデータセット評価MLLMの高精度化～ ○吉田　陸・五箇亮太・前田圭介・小川貴弘・長谷山美紀（北大）
抄録	（和）	本稿では, サッカー競技を対象とした構成映像検索(CoVR)用データセットの自動構築に関する検討を行う. 近年, スポーツ映像配信サービスの普及により, 試合映像から特定のプレーやシーンを効率的に検索・分析する需要が高まっている. 参照映像とテキストによる変更指示を組み合わせて検索を行うCoVRは, ユーザの意図を柔軟に反映可能なことから, スポーツ分野への応用も期待されている. CoVRの学習には参照映像, 指示テキスト, 検索対象映像からなる大規模なトリプレットデータセットが必要であり, その自動構築では, 指示テキストが映像間の差異を正確に捉えない``ノイズ''が生じることが課題となっている. この問題は複数の選手が同時に関与し, 状況が複雑に変化するサッカー映像において特に顕著である. これに対して本研究では, 実況音声キャプションを要約した行動・結果ラベル, サッカー映像で事前学習された映像特徴を用いてトリプレットを自動構築する. さらに, Prompt Tuningにより高精度化したマルチモーダル大規模言語モデル(MLLM)を用いて, トリプレットの要素間の関係性を自動評価する. 本稿の最後では, MLLM評価と人手評価を比較する実験により, 提案手法の有効性を示す.
	（英）	In this paper, we investigate the automatic construction of a dataset for composed video retrieval (CoVR) targeting soccer videos. With the widespread adoption of sports video streaming services in recent years, there is a growing demand to efficiently retrieve and analyze specific plays or scenes from match videos. Combining query video with textual modification instructions for retrieval, CoVR is capable of flexibly reflecting user intent, and its application in the sports domain is also expected. CoVR requires triplets consisting of a query video, an instruction text, and a target video. However, existing automatic construction methods struggle with ``noise" caused by misalignment between instructions and video differences. This issue is particularly pronounced in soccer videos, where multiple players are involved, and situations change in complex ways. To address this, we automatically construct triplets using action/result labels summarized from live commentary captions and video features pre-trained on soccer videos. Furthermore, we employ a multimodal large language model (MLLM) enhanced with prompt tuning to automatically evaluate the relationships among the components of a triplet. At the end, we demonstrate the effectiveness of our proposed framework through experiments comparing MLLM evaluation with human evaluation.
キーワード	（和）	構成映像検索 / トリプレット構築 / prompt tuning / データセット評価 / / / /
	（英）	Composed video retrieval / triplet construction / prompt tuning / dataset evaluation / / / /
文献情報		映情学技報, vol. 50, no. 5, ME2026-16, pp. 70-74, 2026年2月.
資料番号		ME2026-16
発行日		2026-02-12 (MMS, ME, AIT, SIP)
ISSN		Online edition: ISSN 2424-1970
PDFダウンロード

研究会情報
研究会	IEICE-IE IEICE-ITS MMS ME AIT SIP
開催期間	2026-02-19 - 2026-02-20
開催地（和）	北海道大学
開催地（英）
テーマ（和）	画像処理、一般
テーマ（英）
講演論文情報の詳細
申込み研究会	ME
会議コード	2026-02-IE-ITS-MMS-ME-AIT-SIP
本文の言語	日本語
タイトル（和）	サッカー競技における構成映像検索用データセットの自動構築に関する検討
サブタイトル（和）	Prompt Tuningによるデータセット評価MLLMの高精度化
タイトル（英）	A Note on Automated Dataset Construction for Composed Video Retrieval in Soccer
サブタイトル（英）	Improvement of MLLM-based Dataset Evaluation via Prompt Tuning
キーワード(1)（和/英）	構成映像検索 / Composed video retrieval
キーワード(2)（和/英）	トリプレット構築 / triplet construction
キーワード(3)（和/英）	prompt tuning / prompt tuning
キーワード(4)（和/英）	データセット評価 / dataset evaluation
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	吉田陸 / Riku Yoshida / ヨシダリク
第1著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第2著者氏名（和/英/ヨミ）	五箇亮太 / Ryota Goka / ゴカリョウタ
第2著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第3著者氏名（和/英/ヨミ）	前田圭介 / Keisuke Maeda / マエダケイスケ
第3著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第4著者氏名（和/英/ヨミ）	小川貴弘 / Takahiro Ogawa / オガワタカヒロ
第4著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第5著者氏名（和/英/ヨミ）	長谷山美紀 / Miki Haseyama / ハセヤマミキ
第5著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
第21著者氏名（和/英/ヨミ）	/ /
第21著者所属（和/英）	(略称： ) (略称： )
第22著者氏名（和/英/ヨミ）	/ /
第22著者所属（和/英）	(略称： ) (略称： )
第23著者氏名（和/英/ヨミ）	/ /
第23著者所属（和/英）	(略称： ) (略称： )
第24著者氏名（和/英/ヨミ）	/ /
第24著者所属（和/英）	(略称： ) (略称： )
第25著者氏名（和/英/ヨミ）	/ /
第25著者所属（和/英）	(略称： ) (略称： )
第26著者氏名（和/英/ヨミ）	/ /
第26著者所属（和/英）	(略称： ) (略称： )
第27著者氏名（和/英/ヨミ）	/ /
第27著者所属（和/英）	(略称： ) (略称： )
第28著者氏名（和/英/ヨミ）	/ /
第28著者所属（和/英）	(略称： ) (略称： )
第29著者氏名（和/英/ヨミ）	/ /
第29著者所属（和/英）	(略称： ) (略称： )
第30著者氏名（和/英/ヨミ）	/ /
第30著者所属（和/英）	(略称： ) (略称： )
第31著者氏名（和/英/ヨミ）	/ /
第31著者所属（和/英）	(略称： ) (略称： )
第32著者氏名（和/英/ヨミ）	/ /
第32著者所属（和/英）	(略称： ) (略称： )
第33著者氏名（和/英/ヨミ）	/ /
第33著者所属（和/英）	(略称： ) (略称： )
第34著者氏名（和/英/ヨミ）	/ /
第34著者所属（和/英）	(略称： ) (略称： )
第35著者氏名（和/英/ヨミ）	/ /
第35著者所属（和/英）	(略称： ) (略称： )
第36著者氏名（和/英/ヨミ）	/ /
第36著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2026-02-19 15:45:00
発表時間	15分
申込先研究会	ME
資料番号	MMS2026-16, ME2026-16, AIT2026-16, SIP2026-16
巻番号（vol）	vol.50
号番号（no）	no.5
ページ範囲	pp.70-74
ページ数	5
発行日	2026-02-12 (MMS, ME, AIT, SIP)

[研究会発表申込システムのトップページに戻る]

[映像情報メディア学会ホームページ]

ITE / 映像情報メディア学会