データベース特化型クロスモーダル画像検索のためのテキストプロンプトチューニングに関する検討

張,華瀛; 柳,凜太郎; 藤後,廉; 小川,貴弘; 長谷山,美紀

映像情報メディア学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
技報オンライン

講演抄録／キーワード
講演名		2023-02-21 11:00 データベース特化型クロスモーダル画像検索のためのテキストプロンプトチューニングに関する検討 ○張　華瀛・柳　凜太郎・藤後　廉・小川貴弘・長谷山美紀（北大）
抄録	（和）	ストレージデバイスやインターネットの普及により，個人用画像データベースを作成するユーザが増加している．これらのデータベースから効率的に画像を検索するため，テキストをクエリとする画像検索を実現可能なクロスモーダル画像検索手法が幅広く研究されている．従来，大量の画像データを用いた事前学習済みのクロスモーダルモデルがいくつか提案されている．しかしながら，これらのモデルを個人データベースに最適化するためには，通常数百万個のパラメータを保持して更新する必要があり，データ容量の観点から非効率的である．そこで，本文では，モデルのパラメータをチューニングすることなく，テキストプロンプトチューニングを用いて，少量のパラメータを更新することで，クロスモーダルモデルを対象データベースに特化させる新たな画像検索手法について検討する．提案手法ではまず，数次元のベクトル（プロンプト）を，同じ次元数にベクトル化したクエリに結合する．その後，結合されたベクトルおよび候補画像を事前学習済みクロスモーダルモデルに入力する．最後に，検索精度が向上するようにプロンプトを最適化する．本文の最後では，一般的に公開されたデータセットによる実験により提案手法の有効性を確認した．
	（英）	With the development of storage devices and the Internet, the number of users creating personal image databases has increased. To effectively retrieve images from these databases, cross-modal image retrieval methods which allow users to retrieve images by entering a simple text query have been widely researched. Among these methods, several large cross-modal models pre-trained on huge amounts of image data have been proposed. However, to adapt these models to personal databases, it is required to store and update millions of parameters. This can be inefficient in terms of data storage in practice. To solve this problem, in this paper, we propose a novel image retrieval method that uses text prompt tuning to efficiently adapt the cross-modal model to a specific database without fine-tuning the model parameters. In the proposed method, we first construct a vector of several dimensions (prompt) and combine the prompt with the query vectorized to the same dimension. Then the combined vector and the candidate images are fed into the pre-trained cross-modal models. Finally, the prompt is optimized to achieve better retrieval accuracy. At the end of this paper, we have verified the effectiveness of the proposed method through experiments on the open dataset.
キーワード	（和）	画像検索 / クロスモーダル検索 / プロンプト学習 / / / / /
	（英）	Image retrieval / Cross-modal retrieval / Prompt learning / / / / /
文献情報		映情学技報, vol. 47, no. 6, ME2023-23, pp. 11-15, 2023年2月.
資料番号		ME2023-23
発行日		2023-02-14 (MMS, ME, AIT)
ISSN		Print edition: ISSN 1342-6893 Online edition: ISSN 2424-1970
PDFダウンロード

研究会情報
研究会	MMS ME AIT IEICE-IE IEICE-ITS
開催期間	2023-02-21 - 2023-02-22
開催地（和）	北海道大学
開催地（英）	Hokkaido Univ.
テーマ（和）	画像処理，一般
テーマ（英）	Image Processing, etc.
講演論文情報の詳細
申込み研究会	ME
会議コード	2023-02-MMS-ME-AIT-IE-ITS
本文の言語	日本語
タイトル（和）	データベース特化型クロスモーダル画像検索のためのテキストプロンプトチューニングに関する検討
サブタイトル（和）
タイトル（英）	A note on text prompt tuning in cross-modal image retrieval for a specific database
サブタイトル（英）
キーワード(1)（和/英）	画像検索 / Image retrieval
キーワード(2)（和/英）	クロスモーダル検索 / Cross-modal retrieval
キーワード(3)（和/英）	プロンプト学習 / Prompt learning
キーワード(4)（和/英）	/
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	張華瀛 / Huaying Zhang / チョウカエイ
第1著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第2著者氏名（和/英/ヨミ）	柳凜太郎 / Rintaro Yanagi / ヤナギリンタロウ
第2著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第3著者氏名（和/英/ヨミ）	藤後廉 / Ren Togo / トウゴレン
第3著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第4著者氏名（和/英/ヨミ）	小川貴弘 / Takahiro Ogawa / オガワタカヒロ
第4著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第5著者氏名（和/英/ヨミ）	長谷山美紀 / Miki Haseyama / ハセヤマミキ
第5著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2023-02-21 11:00:00
発表時間	15分
申込先研究会	ME
資料番号	MMS2023-3, ME2023-23, AIT2023-3
巻番号（vol）	vol.47
号番号（no）	no.6
ページ範囲	pp.11-15
ページ数	5
発行日	2023-02-14 (MMS, ME, AIT)

[研究会発表申込システムのトップページに戻る]

[映像情報メディア学会ホームページ]

ITE / 映像情報メディア学会