講演抄録/キーワード |
講演名 |
2023-02-21 11:00
データベース特化型クロスモーダル画像検索のためのテキストプロンプトチューニングに関する検討 ○張 華瀛・柳 凜太郎・藤後 廉・小川貴弘・長谷山美紀(北大) |
抄録 |
(和) |
ストレージデバイスやインターネットの普及により,個人用画像データベースを作成するユーザが増加している.これらのデータベースから効率的に画像を検索するため,テキストをクエリとする画像検索を実現可能なクロスモーダル画像検索手法が幅広く研究されている.従来,大量の画像データを用いた事前学習済みのクロスモーダルモデルがいくつか提案されている.しかしながら,これらのモデルを個人データベースに最適化するためには,通常数百万個のパラメータを保持して更新する必要があり,データ容量の観点から非効率的である.そこで,本文では,モデルのパラメータをチューニングすることなく,テキストプロンプトチューニングを用いて,少量のパラメータを更新することで,クロスモーダルモデルを対象データベースに特化させる新たな画像検索手法について検討する.提案手法ではまず,数次元のベクトル(プロンプト)を,同じ次元数にベクトル化したクエリに結合する.その後,結合されたベクトルおよび候補画像を事前学習済みクロスモーダルモデルに入力する.最後に,検索精度が向上するようにプロンプトを最適化する.本文の最後では,一般的に公開されたデータセットによる実験により提案手法の有効性を確認した. |
(英) |
With the development of storage devices and the Internet, the number of users creating personal image databases has increased. To effectively retrieve images from these databases, cross-modal image retrieval methods which allow users to retrieve images by entering a simple text query have been widely researched. Among these methods, several large cross-modal models pre-trained on huge amounts of image data have been proposed. However, to adapt these models to personal databases, it is required to store and update millions of parameters. This can be inefficient in terms of data storage in practice. To solve this problem, in this paper, we propose a novel image retrieval method that uses text prompt tuning to efficiently adapt the cross-modal model to a specific database without fine-tuning the model parameters. In the proposed method, we first construct a vector of several dimensions (prompt) and combine the prompt with the query vectorized to the same dimension. Then the combined vector and the candidate images are fed into the pre-trained cross-modal models. Finally, the prompt is optimized to achieve better retrieval accuracy. At the end of this paper, we have verified the effectiveness of the proposed method through experiments on the open dataset. |
キーワード |
(和) |
画像検索 / クロスモーダル検索 / プロンプト学習 / / / / / |
(英) |
Image retrieval / Cross-modal retrieval / Prompt learning / / / / / |
文献情報 |
映情学技報, vol. 47, no. 6, ME2023-23, pp. 11-15, 2023年2月. |
資料番号 |
ME2023-23 |
発行日 |
2023-02-14 (MMS, ME, AIT) |
ISSN |
Print edition: ISSN 1342-6893 Online edition: ISSN 2424-1970 |
PDFダウンロード |
|
|