講演抄録/キーワード |
講演名 |
2025-02-18 16:25
Vision-Language Modelを用いた交通場面のハザード認識の試み ○西村和真・中川和人・岡本天馬・杉山 治・多田昌裕(近畿大) |
抄録 |
(和) |
自動運転システムの社会実装を目指すためには,システムが,前方車両の急減速や急な飛び出しなどによる衝突リスクを検知し,事故リスクを最小化する能力が求められる.人間は交通場面において,事故につながる可能性のある物体や状況(ハザード)を収集し,それを基に総合的にリスクを評価しているため,交通環境のリスクを適切に評価するためには,当該環境に潜むハザードを予測することが重要であると考えられる.そこで,本研究では,周辺交通参加者の状態や自車両との相対位置を表現可能な画像キャプショニング技術と遮蔽物の種類や位置を表現可能なSemantic Segmentation,遮蔽物と自車両との位置関係を表現可能な深度情報,複数枚の時系列画像を入力可能なVision-Language Model(VLM)を組み合わせることで,自動車の車外映像から画像平面中に映っていない交通参加者の出現可能性を含めたハザードの予測を行うシステムを構築した.運転者の将来予測能力を測る際に広く用いられているハザード知覚テストによる性能評価実験では,VLM単体で用いた場合と比較して,提案手法では周辺交通参加者の行動予測精度が18ポイント,画像平面中に映っていない交通参加者の出現可能性の予測精度が42ポイント向上し,提案手法の有効性を示唆する結果が得られた. |
(英) |
For the societal implementation of autonomous driving systems, it is essential that these systems understand collision risks caused by sudden deceleration of preceding vehicles or abrupt appearances of pedestrians and to minimize the associated accident risks. In traffic situations, humans collect information about objects and situations that may lead to accidents (hazards) and then use this information to comprehensively assess risk. Therefore, to properly assess the risks of a traffic situations, it is important to predict the hazards in traffic situations. This study therefore integrates image captioning technology, which represents the state and relative positions of surrounding traffic participants, semantic segmentation that can represent the type and position of obstructions, depth information that can represent the positional relationship between obstructions and the vehicle, and a Vision-Language Model(VLM) that processes multiple sequential images. Our system is designed to identify potentially hazardous traffic participants from external vehicle images including the possibility of traffic participants not visible in the image plane appearing and predict their near-future behaviors. Through experiments using hazard perception tests, which are widely used to measure drivers' risk predictive skills, the proposed method demonstrated an improvement in the accuracy of predicting the behavior of surrounding traffic participants by 18 points and the possibility of traffic participants not visible in the image plane appearing by 42 points compared to using the VLM alone, suggesting the effectiveness of the proposed approach. |
キーワード |
(和) |
交通場面認識 / 人間行動予測 / Vision-Language Model / 画像キャプショニング / / / / |
(英) |
Traffic scene recognition / Human behavior prediction / Vision-Language Model / Image captioning / / / / |
文献情報 |
映情学技報, vol. 49, no. 4, ME2025-20, pp. 102-106, 2025年2月. |
資料番号 |
ME2025-20 |
発行日 |
2025-02-11 (MMS, ME, AIT, SIP) |
ISSN |
Online edition: ISSN 2424-1970 |
PDFダウンロード |
|
研究会情報 |
研究会 |
ME AIT MMS IEICE-IE IEICE-ITS SIP |
開催期間 |
2025-02-18 - 2025-02-19 |
開催地(和) |
北海道大学 |
開催地(英) |
Hokkaido Univ. |
テーマ(和) |
画像処理,一般 |
テーマ(英) |
Image Processing, etc. |
講演論文情報の詳細 |
申込み研究会 |
ME |
会議コード |
2025-02-ME-AIT-MMS-IE-ITS-SIP |
本文の言語 |
日本語 |
タイトル(和) |
Vision-Language Modelを用いた交通場面のハザード認識の試み |
サブタイトル(和) |
|
タイトル(英) |
Trial for Recognizing Hazards in Traffic Scene Using a Vision-Language Model |
サブタイトル(英) |
|
キーワード(1)(和/英) |
交通場面認識 / Traffic scene recognition |
キーワード(2)(和/英) |
人間行動予測 / Human behavior prediction |
キーワード(3)(和/英) |
Vision-Language Model / Vision-Language Model |
キーワード(4)(和/英) |
画像キャプショニング / Image captioning |
キーワード(5)(和/英) |
/ |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
西村 和真 / Kazuma Nishimura / ニシムラ カズマ |
第1著者 所属(和/英) |
近畿大学大学院 (略称: 近畿大)
Kindai University (略称: Kindai Univ.) |
第2著者 氏名(和/英/ヨミ) |
中川 和人 / Kazuto Nakagawa / ナカガワ カズト |
第2著者 所属(和/英) |
近畿大学大学院 (略称: 近畿大)
Kindai University (略称: Kindai Univ.) |
第3著者 氏名(和/英/ヨミ) |
岡本 天馬 / Temma Okamoto / オカモト テンマ |
第3著者 所属(和/英) |
近畿大学 (略称: 近畿大)
Kindai University (略称: Kindai Univ.) |
第4著者 氏名(和/英/ヨミ) |
杉山 治 / Osamu Sugiyama / スギヤマ オサム |
第4著者 所属(和/英) |
近畿大学 (略称: 近畿大)
Kindai University (略称: Kindai Univ.) |
第5著者 氏名(和/英/ヨミ) |
多田 昌裕 / Masahiro Tada / タダ マサヒロ |
第5著者 所属(和/英) |
近畿大学 (略称: 近畿大)
Kindai University (略称: Kindai Univ.) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
第21著者 氏名(和/英/ヨミ) |
/ / |
第21著者 所属(和/英) |
(略称: )
(略称: ) |
第22著者 氏名(和/英/ヨミ) |
/ / |
第22著者 所属(和/英) |
(略称: )
(略称: ) |
第23著者 氏名(和/英/ヨミ) |
/ / |
第23著者 所属(和/英) |
(略称: )
(略称: ) |
第24著者 氏名(和/英/ヨミ) |
/ / |
第24著者 所属(和/英) |
(略称: )
(略称: ) |
第25著者 氏名(和/英/ヨミ) |
/ / |
第25著者 所属(和/英) |
(略称: )
(略称: ) |
第26著者 氏名(和/英/ヨミ) |
/ / |
第26著者 所属(和/英) |
(略称: )
(略称: ) |
第27著者 氏名(和/英/ヨミ) |
/ / |
第27著者 所属(和/英) |
(略称: )
(略称: ) |
第28著者 氏名(和/英/ヨミ) |
/ / |
第28著者 所属(和/英) |
(略称: )
(略称: ) |
第29著者 氏名(和/英/ヨミ) |
/ / |
第29著者 所属(和/英) |
(略称: )
(略称: ) |
第30著者 氏名(和/英/ヨミ) |
/ / |
第30著者 所属(和/英) |
(略称: )
(略称: ) |
第31著者 氏名(和/英/ヨミ) |
/ / |
第31著者 所属(和/英) |
(略称: )
(略称: ) |
第32著者 氏名(和/英/ヨミ) |
/ / |
第32著者 所属(和/英) |
(略称: )
(略称: ) |
第33著者 氏名(和/英/ヨミ) |
/ / |
第33著者 所属(和/英) |
(略称: )
(略称: ) |
第34著者 氏名(和/英/ヨミ) |
/ / |
第34著者 所属(和/英) |
(略称: )
(略称: ) |
第35著者 氏名(和/英/ヨミ) |
/ / |
第35著者 所属(和/英) |
(略称: )
(略称: ) |
第36著者 氏名(和/英/ヨミ) |
/ / |
第36著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2025-02-18 16:25:00 |
発表時間 |
15分 |
申込先研究会 |
ME |
資料番号 |
MMS2025-20, ME2025-20, AIT2025-20, SIP2025-20 |
巻番号(vol) |
vol.49 |
号番号(no) |
no.4 |
ページ範囲 |
pp.102-106 |
ページ数 |
5 |
発行日 |
2025-02-11 (MMS, ME, AIT, SIP) |
|