映像情報メディア学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2023-02-21 11:00
データベース特化型クロスモーダル画像検索のためのテキストプロンプトチューニングに関する検討
張 華瀛柳 凜太郎藤後 廉小川貴弘長谷山美紀北大
抄録 (和) ストレージデバイスやインターネットの普及により,個人用画像データベースを作成するユーザが増加している.これらのデータベースから効率的に画像を検索するため,テキストをクエリとする画像検索を実現可能なクロスモーダル画像検索手法が幅広く研究されている.従来,大量の画像データを用いた事前学習済みのクロスモーダルモデルがいくつか提案されている.しかしながら,これらのモデルを個人データベースに最適化するためには,通常数百万個のパラメータを保持して更新する必要があり,データ容量の観点から非効率的である.そこで,本文では,モデルのパラメータをチューニングすることなく,テキストプロンプトチューニングを用いて,少量のパラメータを更新することで,クロスモーダルモデルを対象データベースに特化させる新たな画像検索手法について検討する.提案手法ではまず,数次元のベクトル(プロンプト)を,同じ次元数にベクトル化したクエリに結合する.その後,結合されたベクトルおよび候補画像を事前学習済みクロスモーダルモデルに入力する.最後に,検索精度が向上するようにプロンプトを最適化する.本文の最後では,一般的に公開されたデータセットによる実験により提案手法の有効性を確認した. 
(英) With the development of storage devices and the Internet, the number of users creating personal image databases has increased. To effectively retrieve images from these databases, cross-modal image retrieval methods which allow users to retrieve images by entering a simple text query have been widely researched. Among these methods, several large cross-modal models pre-trained on huge amounts of image data have been proposed. However, to adapt these models to personal databases, it is required to store and update millions of parameters. This can be inefficient in terms of data storage in practice. To solve this problem, in this paper, we propose a novel image retrieval method that uses text prompt tuning to efficiently adapt the cross-modal model to a specific database without fine-tuning the model parameters. In the proposed method, we first construct a vector of several dimensions (prompt) and combine the prompt with the query vectorized to the same dimension. Then the combined vector and the candidate images are fed into the pre-trained cross-modal models. Finally, the prompt is optimized to achieve better retrieval accuracy. At the end of this paper, we have verified the effectiveness of the proposed method through experiments on the open dataset.
キーワード (和) 画像検索 / クロスモーダル検索 / プロンプト学習 / / / / /  
(英) Image retrieval / Cross-modal retrieval / Prompt learning / / / / /  
文献情報 映情学技報, vol. 47, no. 6, ME2023-23, pp. 11-15, 2023年2月.
資料番号 ME2023-23 
発行日 2023-02-14 (MMS, ME, AIT) 
ISSN Print edition: ISSN 1342-6893    Online edition: ISSN 2424-1970
PDFダウンロード

研究会情報
研究会 MMS ME AIT IEICE-IE IEICE-ITS  
開催期間 2023-02-21 - 2023-02-22 
開催地(和) 北海道大学 
開催地(英) Hokkaido Univ. 
テーマ(和) 画像処理,一般 
テーマ(英) Image Processing, etc. 
講演論文情報の詳細
申込み研究会 ME 
会議コード 2023-02-MMS-ME-AIT-IE-ITS 
本文の言語 日本語 
タイトル(和) データベース特化型クロスモーダル画像検索のためのテキストプロンプトチューニングに関する検討 
サブタイトル(和)  
タイトル(英) A note on text prompt tuning in cross-modal image retrieval for a specific database 
サブタイトル(英)  
キーワード(1)(和/英) 画像検索 / Image retrieval  
キーワード(2)(和/英) クロスモーダル検索 / Cross-modal retrieval  
キーワード(3)(和/英) プロンプト学習 / Prompt learning  
キーワード(4)(和/英) /  
キーワード(5)(和/英) /  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 張 華瀛 / Huaying Zhang / チョウ カエイ
第1著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第2著者 氏名(和/英/ヨミ) 柳 凜太郎 / Rintaro Yanagi / ヤナギ リンタロウ
第2著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第3著者 氏名(和/英/ヨミ) 藤後 廉 / Ren Togo / トウゴ レン
第3著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第4著者 氏名(和/英/ヨミ) 小川 貴弘 / Takahiro Ogawa / オガワ タカヒロ
第4著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第5著者 氏名(和/英/ヨミ) 長谷山 美紀 / Miki Haseyama / ハセヤマ ミキ
第5著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2023-02-21 11:00:00 
発表時間 15分 
申込先研究会 ME 
資料番号 MMS2023-3, ME2023-23, AIT2023-3 
巻番号(vol) vol.47 
号番号(no) no.6 
ページ範囲 pp.11-15 
ページ数
発行日 2023-02-14 (MMS, ME, AIT) 


[研究会発表申込システムのトップページに戻る]

[映像情報メディア学会ホームページ]


ITE / 映像情報メディア学会