視覚言語モデルにおける注目する特徴を指定可能なドメイン適応に関する検討

岡村,洋希; 前田,圭介; 藤後,廉; 小川,貴弘; 長谷山,美紀

映像情報メディア学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
技報オンライン

講演抄録／キーワード
講演名		2024-02-19 13:30 視覚言語モデルにおける注目する特徴を指定可能なドメイン適応に関する検討 ○岡村洋希・前田圭介・藤後　廉・小川貴弘・長谷山美紀（北大）
抄録	（和）	本稿では，視覚言語モデル（VLM）を用いた画像分類におけるドメイン適応に関する検討を行う．近年，大量のWeb上の画像とテキストペアで事前学習されたVLMは注目を集めている．VLMは既に多様なドメインで学習されているため，複数のドメインにおけるゼロショット画像分類において高い精度を達成している．特に，VLMのドメイン適応の性能はプロンプトエンジニアリングやプロンプトラーニングによって向上させることが可能である．しかしながら，適切なプロンプトエンジニアリングは多大な労力，プロンプトラーニングはターゲットドメインを特徴づける高品質なデータセットを必要とする．そこで，本稿では，人間が指定したターゲットドメインにおける注目すべき特徴を表す単語のみを必要とし，ターゲットドメインのデータセットが不要なドメイン適応手法を提案する．提案手法では，人間が指定した注目すべき特徴を示す単純な単語に基づいた画像分類が可能であり，分類精度の向上が期待できる．
	（英）	In this paper, we present a domain adaptation method for image classification using a visual-language model (VLM). Recently, VLMs that are trained with large numbers of image-text pairs have attracted attention. VLMs might already have observed a wide variety of domains, and they achieve high accuracy in zero-shot image classification of multiple domains. Especially, the domain adaptation performance of VLMs is enhanced by prompt engineering and prompt learning. However, prompt engineering is time-consuming, and prompt learning requires high-quality datasets that characterize the target domain, which limit its practical application. We thus propose a domain adaptation method that requires only features of interest in the target domain, as specified by a user. The proposed method can classify images based on simple words that represent the features of interest and improve the accuracy of image classification.
キーワード	（和）	視覚言語モデル / ドメイン適応 / 画像分類 / / / / /
	（英）	/ / / / / / /
文献情報		映情学技報, vol. 48, no. 6, ME2024-24, pp. 39-43, 2024年2月.
資料番号		ME2024-24
発行日		2024-02-12 (MMS, ME, AIT)
ISSN		Online edition: ISSN 2424-1970
PDFダウンロード

研究会情報
研究会	IEICE-ITS IEICE-IE ME AIT MMS
開催期間	2024-02-19 - 2024-02-20
開催地（和）	北海道大学
開催地（英）	Hokkaido Univ.
テーマ（和）	画像処理、一般
テーマ（英）	Image Processing, etc.
講演論文情報の詳細
申込み研究会	ME
会議コード	2024-02-ITS-IE-ME-AIT-MMS
本文の言語	日本語
タイトル（和）	視覚言語モデルにおける注目する特徴を指定可能なドメイン適応に関する検討
サブタイトル（和）
タイトル（英）	A Note on Domain Adaptation by Setting Features of Interest in Visual Language Models
サブタイトル（英）
キーワード(1)（和/英）	視覚言語モデル /
キーワード(2)（和/英）	ドメイン適応 /
キーワード(3)（和/英）	画像分類 /
キーワード(4)（和/英）	/
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	岡村洋希 / Hiroki Okamura / オカムラヒロキ
第1著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第2著者氏名（和/英/ヨミ）	前田圭介 / Keisuke Maeda / マエダケイスケ
第2著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第3著者氏名（和/英/ヨミ）	藤後廉 / Ren Togo / トウゴレン
第3著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第4著者氏名（和/英/ヨミ）	小川貴弘 / Takahiro Ogawa / オガワタカヒロ
第4著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第5著者氏名（和/英/ヨミ）	長谷山美紀 / Miki Haseyama / ハセヤマミキ
第5著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2024-02-19 13:30:00
発表時間	15分
申込先研究会	ME
資料番号	MMS2024-8, ME2024-24, AIT2024-8
巻番号（vol）	vol.48
号番号（no）	no.6
ページ範囲	pp.39-43
ページ数	5
発行日	2024-02-12 (MMS, ME, AIT)

[研究会発表申込システムのトップページに戻る]

[映像情報メディア学会ホームページ]

ITE / 映像情報メディア学会