物体の属性と関係性を考慮したマルチモーダル大規模言語モデルの高精度化に関する検討

大羽賀,駿也; 藤後,廉; 小川,貴弘; 長谷山,美紀

映像情報メディア学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
技報オンライン

講演抄録／キーワード
講演名		2024-02-20 13:15 物体の属性と関係性を考慮したマルチモーダル大規模言語モデルの高精度化に関する検討 ○大羽賀駿也・藤後　廉・小川貴弘・長谷山美紀（北大）
抄録	（和）	本文では，マルチモーダル大規模言語モデル (MLLM) が入力画像と矛盾した応答を生成する現象 (hallucination) のうち，特に「物体が持つ属性」や「物体同士の関係」に関するhallucinationに焦点を当て，これを低減するための物体の属性と関係性を考慮したマルチモーダル大規模言語モデルを提案する．提案手法では，物体検出モデルを用いて指示に関連する物体を中心とした画像を取得することにより，MLLMによる物体の認識精度を向上させる．また，画像情報をテキスト情報へと変換し，指示と組み合わせることで，画像とテキストの影響の差を軽減する．さらに，物体の数を問う指示の場合に専用の処理を行うことで，応答精度の向上を図る．以上により，物体の属性や関係性を考慮することでMLLMの精度向上を実現する．実験により，提案手法の有効性を確認する．
	（英）	In this paper, we propose an enhanced Multimodal Large Language Model (MLLM) specifically designed to mitigate hallucinations related to the attributes of objects and their interrelations. The proposed method employs object detection models to obtain images centered on objects relevant to the given instructions, thereby improving the MLLM's ability to recognize object attributes and interrelations. By converting image information into text information and combining it with the instructions, the disparity in influence between images and text is reduced. Furthermore, specialized processing for instructions querying the number of objects is introduced to enhance response accuracy. Overall, this approach significantly improves the MLLM's recognition of object attributes and relationships. Experimental results show the effectiveness of the proposed method.
キーワード	（和）	マルチモーダル大規模言語モデル / 幻覚 / 属性 / 関係性 / 物体検出 / / /
	（英）	Multimodal Large Language Model / Hallucination / Attribute / Relation / Object Detection / / /
文献情報		映情学技報, vol. 48, no. 6, ME2024-43, pp. 132-136, 2024年2月.
資料番号		ME2024-43
発行日		2024-02-12 (MMS, ME, AIT)
ISSN		Online edition: ISSN 2424-1970
PDFダウンロード

研究会情報
研究会	IEICE-ITS IEICE-IE ME AIT MMS
開催期間	2024-02-19 - 2024-02-20
開催地（和）	北海道大学
開催地（英）	Hokkaido Univ.
テーマ（和）	画像処理、一般
テーマ（英）	Image Processing, etc.
講演論文情報の詳細
申込み研究会	ME
会議コード	2024-02-ITS-IE-ME-AIT-MMS
本文の言語	日本語
タイトル（和）	物体の属性と関係性を考慮したマルチモーダル大規模言語モデルの高精度化に関する検討
サブタイトル（和）
タイトル（英）	A Note on Improvement of Multimodal Large Language Model Considering Object Attributes and Relationships
サブタイトル（英）
キーワード(1)（和/英）	マルチモーダル大規模言語モデル / Multimodal Large Language Model
キーワード(2)（和/英）	幻覚 / Hallucination
キーワード(3)（和/英）	属性 / Attribute
キーワード(4)（和/英）	関係性 / Relation
キーワード(5)（和/英）	物体検出 / Object Detection
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	大羽賀駿也 / Shunya Ohaga / オオハガシュンヤ
第1著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第2著者氏名（和/英/ヨミ）	藤後廉 / Ren Togo / トウゴレン
第2著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第3著者氏名（和/英/ヨミ）	小川貴弘 / Takahiro Ogawa / オガワタカヒロ
第3著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第4著者氏名（和/英/ヨミ）	長谷山美紀 / Miki Haseyama / ハセヤマミキ
第4著者所属（和/英）	北海道大学 (略称：北大) Hokkaido University (略称： Hokkaido Univ.)
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2024-02-20 13:15:00
発表時間	15分
申込先研究会	ME
資料番号	MMS2024-27, ME2024-43, AIT2024-27
巻番号（vol）	vol.48
号番号（no）	no.6
ページ範囲	pp.132-136
ページ数	5
発行日	2024-02-12 (MMS, ME, AIT)

[研究会発表申込システムのトップページに戻る]

[映像情報メディア学会ホームページ]

ITE / 映像情報メディア学会