映像情報メディア学会 研究会発表申込システム
講演論文 詳細
技報閲覧サービス
技報オンライン
 トップに戻る 前のページに戻る   [Japanese] / [English] 

講演抄録/キーワード
講演名 2024-02-20 13:15
物体の属性と関係性を考慮したマルチモーダル大規模言語モデルの高精度化に関する検討
大羽賀駿也藤後 廉小川貴弘長谷山美紀北大
抄録 (和) 本文では,マルチモーダル大規模言語モデル (MLLM) が入力画像と矛盾した応答を生成する現象 (hallucination) のうち,特に「物体が持つ属性」や「物体同士の関係」に関するhallucinationに焦点を当て,これを低減するための物体の属性と関係性を考慮したマルチモーダル大規模言語モデルを提案する.提案手法では,物体検出モデルを用いて指示に関連する物体を中心とした画像を取得することにより,MLLMによる物体の認識精度を向上させる.また,画像情報をテキスト情報へと変換し,指示と組み合わせることで,画像とテキストの影響の差を軽減する.さらに,物体の数を問う指示の場合に専用の処理を行うことで,応答精度の向上を図る.以上により,物体の属性や関係性を考慮することでMLLMの精度向上を実現する.実験により,提案手法の有効性を確認する. 
(英) In this paper, we propose an enhanced Multimodal Large Language Model (MLLM) specifically designed to mitigate hallucinations related to the attributes of objects and their interrelations. The proposed method employs object detection models to obtain images centered on objects relevant to the given instructions, thereby improving the MLLM's ability to recognize object attributes and interrelations. By converting image information into text information and combining it with the instructions, the disparity in influence between images and text is reduced. Furthermore, specialized processing for instructions querying the number of objects is introduced to enhance response accuracy. Overall, this approach significantly improves the MLLM's recognition of object attributes and relationships. Experimental results show the effectiveness of the proposed method.
キーワード (和) マルチモーダル大規模言語モデル / 幻覚 / 属性 / 関係性 / 物体検出 / / /  
(英) Multimodal Large Language Model / Hallucination / Attribute / Relation / Object Detection / / /  
文献情報 映情学技報, vol. 48, no. 6, ME2024-43, pp. 132-136, 2024年2月.
資料番号 ME2024-43 
発行日 2024-02-12 (MMS, ME, AIT) 
ISSN Online edition: ISSN 2424-1970
PDFダウンロード

研究会情報
研究会 IEICE-ITS IEICE-IE ME AIT MMS  
開催期間 2024-02-19 - 2024-02-20 
開催地(和) 北海道大学 
開催地(英) Hokkaido Univ. 
テーマ(和) 画像処理、一般 
テーマ(英) Image Processing, etc. 
講演論文情報の詳細
申込み研究会 ME 
会議コード 2024-02-ITS-IE-ME-AIT-MMS 
本文の言語 日本語 
タイトル(和) 物体の属性と関係性を考慮したマルチモーダル大規模言語モデルの高精度化に関する検討 
サブタイトル(和)  
タイトル(英) A Note on Improvement of Multimodal Large Language Model Considering Object Attributes and Relationships 
サブタイトル(英)  
キーワード(1)(和/英) マルチモーダル大規模言語モデル / Multimodal Large Language Model  
キーワード(2)(和/英) 幻覚 / Hallucination  
キーワード(3)(和/英) 属性 / Attribute  
キーワード(4)(和/英) 関係性 / Relation  
キーワード(5)(和/英) 物体検出 / Object Detection  
キーワード(6)(和/英) /  
キーワード(7)(和/英) /  
キーワード(8)(和/英) /  
第1著者 氏名(和/英/ヨミ) 大羽賀 駿也 / Shunya Ohaga / オオハガ シュンヤ
第1著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第2著者 氏名(和/英/ヨミ) 藤後 廉 / Ren Togo / トウゴ レン
第2著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第3著者 氏名(和/英/ヨミ) 小川 貴弘 / Takahiro Ogawa / オガワ タカヒロ
第3著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第4著者 氏名(和/英/ヨミ) 長谷山 美紀 / Miki Haseyama / ハセヤマ ミキ
第4著者 所属(和/英) 北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.)
第5著者 氏名(和/英/ヨミ) / /
第5著者 所属(和/英) (略称: )
(略称: )
第6著者 氏名(和/英/ヨミ) / /
第6著者 所属(和/英) (略称: )
(略称: )
第7著者 氏名(和/英/ヨミ) / /
第7著者 所属(和/英) (略称: )
(略称: )
第8著者 氏名(和/英/ヨミ) / /
第8著者 所属(和/英) (略称: )
(略称: )
第9著者 氏名(和/英/ヨミ) / /
第9著者 所属(和/英) (略称: )
(略称: )
第10著者 氏名(和/英/ヨミ) / /
第10著者 所属(和/英) (略称: )
(略称: )
第11著者 氏名(和/英/ヨミ) / /
第11著者 所属(和/英) (略称: )
(略称: )
第12著者 氏名(和/英/ヨミ) / /
第12著者 所属(和/英) (略称: )
(略称: )
第13著者 氏名(和/英/ヨミ) / /
第13著者 所属(和/英) (略称: )
(略称: )
第14著者 氏名(和/英/ヨミ) / /
第14著者 所属(和/英) (略称: )
(略称: )
第15著者 氏名(和/英/ヨミ) / /
第15著者 所属(和/英) (略称: )
(略称: )
第16著者 氏名(和/英/ヨミ) / /
第16著者 所属(和/英) (略称: )
(略称: )
第17著者 氏名(和/英/ヨミ) / /
第17著者 所属(和/英) (略称: )
(略称: )
第18著者 氏名(和/英/ヨミ) / /
第18著者 所属(和/英) (略称: )
(略称: )
第19著者 氏名(和/英/ヨミ) / /
第19著者 所属(和/英) (略称: )
(略称: )
第20著者 氏名(和/英/ヨミ) / /
第20著者 所属(和/英) (略称: )
(略称: )
講演者 第1著者 
発表日時 2024-02-20 13:15:00 
発表時間 15分 
申込先研究会 ME 
資料番号 MMS2024-27, ME2024-43, AIT2024-27 
巻番号(vol) vol.48 
号番号(no) no.6 
ページ範囲 pp.132-136 
ページ数
発行日 2024-02-12 (MMS, ME, AIT) 


[研究会発表申込システムのトップページに戻る]

[映像情報メディア学会ホームページ]


ITE / 映像情報メディア学会