講演抄録/キーワード |
講演名 |
2024-02-19 13:30
視覚言語モデルにおける注目する特徴を指定可能なドメイン適応に関する検討 ○岡村洋希・前田圭介・藤後 廉・小川貴弘・長谷山美紀(北大) |
抄録 |
(和) |
本稿では,視覚言語モデル(VLM)を用いた画像分類におけるドメイン適応に関する検討を行う.近年,大量のWeb上の画像とテキストペアで事前学習されたVLMは注目を集めている.VLMは既に多様なドメインで学習されているため,複数のドメインにおけるゼロショット画像分類において高い精度を達成している.特に,VLMのドメイン適応の性能はプロンプトエンジニアリングやプロンプトラーニングによって向上させることが可能である.しかしながら,適切なプロンプトエンジニアリングは多大な労力,プロンプトラーニングはターゲットドメインを特徴づける高品質なデータセットを必要とする.そこで,本稿では,人間が指定したターゲットドメインにおける注目すべき特徴を表す単語のみを必要とし,ターゲットドメインのデータセットが不要なドメイン適応手法を提案する.提案手法では,人間が指定した注目すべき特徴を示す単純な単語に基づいた画像分類が可能であり,分類精度の向上が期待できる. |
(英) |
In this paper, we present a domain adaptation method for image classification using a visual-language model (VLM). Recently, VLMs that are trained with large numbers of image-text pairs have attracted attention. VLMs might already have observed a wide variety of domains, and they achieve high accuracy in zero-shot image classification of multiple domains. Especially, the domain adaptation performance of VLMs is enhanced by prompt engineering and prompt learning. However, prompt engineering is time-consuming, and prompt learning requires high-quality datasets that characterize the target domain, which limit its practical application. We thus propose a domain adaptation method that requires only features of interest in the target domain, as specified by a user. The proposed method can classify images based on simple words that represent the features of interest and improve the accuracy of image classification. |
キーワード |
(和) |
視覚言語モデル / ドメイン適応 / 画像分類 / / / / / |
(英) |
/ / / / / / / |
文献情報 |
映情学技報, vol. 48, no. 6, ME2024-24, pp. 39-43, 2024年2月. |
資料番号 |
ME2024-24 |
発行日 |
2024-02-12 (MMS, ME, AIT) |
ISSN |
Online edition: ISSN 2424-1970 |
PDFダウンロード |
|
研究会情報 |
研究会 |
IEICE-ITS IEICE-IE ME AIT MMS |
開催期間 |
2024-02-19 - 2024-02-20 |
開催地(和) |
北海道大学 |
開催地(英) |
Hokkaido Univ. |
テーマ(和) |
画像処理、一般 |
テーマ(英) |
Image Processing, etc. |
講演論文情報の詳細 |
申込み研究会 |
ME |
会議コード |
2024-02-ITS-IE-ME-AIT-MMS |
本文の言語 |
日本語 |
タイトル(和) |
視覚言語モデルにおける注目する特徴を指定可能なドメイン適応に関する検討 |
サブタイトル(和) |
|
タイトル(英) |
A Note on Domain Adaptation by Setting Features of Interest in Visual Language Models |
サブタイトル(英) |
|
キーワード(1)(和/英) |
視覚言語モデル / |
キーワード(2)(和/英) |
ドメイン適応 / |
キーワード(3)(和/英) |
画像分類 / |
キーワード(4)(和/英) |
/ |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
岡村 洋希 / Hiroki Okamura / オカムラ ヒロキ |
第1著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第2著者 氏名(和/英/ヨミ) |
前田 圭介 / Keisuke Maeda / マエダ ケイスケ |
第2著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第3著者 氏名(和/英/ヨミ) |
藤後 廉 / Ren Togo / トウゴ レン |
第3著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第4著者 氏名(和/英/ヨミ) |
小川 貴弘 / Takahiro Ogawa / オガワ タカヒロ |
第4著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第5著者 氏名(和/英/ヨミ) |
長谷山 美紀 / Miki Haseyama / ハセヤマ ミキ |
第5著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2024-02-19 13:30:00 |
発表時間 |
15分 |
申込先研究会 |
ME |
資料番号 |
MMS2024-8, ME2024-24, AIT2024-8 |
巻番号(vol) |
vol.48 |
号番号(no) |
no.6 |
ページ範囲 |
pp.39-43 |
ページ数 |
5 |
発行日 |
2024-02-12 (MMS, ME, AIT) |
|