講演抄録/キーワード |
講演名 |
2023-02-21 14:45
360度映像におけるマルチビュー学習に基づくバイノーラル音声生成の高精度化に関する検討 ○吉田将規・藤後 廉・小川貴弘・長谷山美紀(北大) |
抄録 |
(和) |
本稿では,360 度映像を用いたマルチビュー学習に基づくバイノーラル音声生成の高精度化に関する検討を行う.従来,視覚的情報に基づくバイノーラル音声生成の学習には,グラウンドトゥルースとなるバイノーラル音声が必要となるが,本研究では,360度映像から学習データとなる映像・音声を作成し,バイノーラル音声生成の学習を行う.ユーザが自由に視点を操作可能な360度映像を用いることで,視線方向が異なる複数の映像データを作成可能とし,同一のシーンにおける異なる視線方向の映像に基づくマルチビュー学習を可能とする.さらに,映像フレームと音声における視線方向が一致しない映像を作成し,映像フレームと音声における視線方向のずれの予測を行なうことで,映像フレーム中の音源位置と音声の到来方向の関係を学習する事前学習を行う.そして,360度映像から作成された学習データを用いて,事前学習済みのネットワークを利用したバイノーラル音声生成の学習を行うことで,バイノーラル音声生成の精度向上を図る. |
(英) |
In this paper, we propose a binaural audio generation method based on multi-view learning using 360◦ videos. Conventionally, learning visually informed binaural audio generation requires ground truth binaural audio. We generate training video data from 360◦ videos and train binaural audio generation. By using 360◦ videos, which allow users to freely manipulate their viewpoints, we can generate multiple video data with different viewing directions. Our approach enables multi-view learning based on videos of the same scene with different viewing directions. Furthermore, we conduct pre-training before binaural audio generation for learning spatial correspondence between the video frame and the audio. In the pre-training, we generate videos in which the gaze direction does not match that of the audio and predict the gap in gaze direction. By using the data generated from 360◦ videos and pre-trained networks, we can improve the accuracy of binaural audio generation. |
キーワード |
(和) |
マルチモーダル学習 / バイノーラル音声 / 360 度映像 / マルチビュー学習 / 事前学習 / / / |
(英) |
Multi-modal learning / Binaural audio / 360° video / Multi-view learning / Pre-training / / / |
文献情報 |
映情学技報, vol. 47, no. 6, ME2023-33, pp. 65-69, 2023年2月. |
資料番号 |
ME2023-33 |
発行日 |
2023-02-14 (MMS, ME, AIT) |
ISSN |
Print edition: ISSN 1342-6893 Online edition: ISSN 2424-1970 |
PDFダウンロード |
|
研究会情報 |
研究会 |
MMS ME AIT IEICE-IE IEICE-ITS |
開催期間 |
2023-02-21 - 2023-02-22 |
開催地(和) |
北海道大学 |
開催地(英) |
Hokkaido Univ. |
テーマ(和) |
画像処理,一般 |
テーマ(英) |
Image Processing, etc. |
講演論文情報の詳細 |
申込み研究会 |
ME |
会議コード |
2023-02-MMS-ME-AIT-IE-ITS |
本文の言語 |
日本語 |
タイトル(和) |
360度映像におけるマルチビュー学習に基づくバイノーラル音声生成の高精度化に関する検討 |
サブタイトル(和) |
|
タイトル(英) |
A Note on Improvement of Binauralization Performance Based on Multi-view Learning on 360° Videos |
サブタイトル(英) |
|
キーワード(1)(和/英) |
マルチモーダル学習 / Multi-modal learning |
キーワード(2)(和/英) |
バイノーラル音声 / Binaural audio |
キーワード(3)(和/英) |
360 度映像 / 360° video |
キーワード(4)(和/英) |
マルチビュー学習 / Multi-view learning |
キーワード(5)(和/英) |
事前学習 / Pre-training |
キーワード(6)(和/英) |
/ |
キーワード(7)(和/英) |
/ |
キーワード(8)(和/英) |
/ |
第1著者 氏名(和/英/ヨミ) |
吉田 将規 / Masaki Yoshida / ヨシダ マサキ |
第1著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第2著者 氏名(和/英/ヨミ) |
藤後 廉 / Ren Togo / トウゴ レン |
第2著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第3著者 氏名(和/英/ヨミ) |
小川 貴弘 / Takahiro Ogawa / オガワ タカヒロ |
第3著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第4著者 氏名(和/英/ヨミ) |
長谷山 美紀 / Miki Haseyama / ハセヤマ ミキ |
第4著者 所属(和/英) |
北海道大学 (略称: 北大)
Hokkaido University (略称: Hokkaido Univ.) |
第5著者 氏名(和/英/ヨミ) |
/ / |
第5著者 所属(和/英) |
(略称: )
(略称: ) |
第6著者 氏名(和/英/ヨミ) |
/ / |
第6著者 所属(和/英) |
(略称: )
(略称: ) |
第7著者 氏名(和/英/ヨミ) |
/ / |
第7著者 所属(和/英) |
(略称: )
(略称: ) |
第8著者 氏名(和/英/ヨミ) |
/ / |
第8著者 所属(和/英) |
(略称: )
(略称: ) |
第9著者 氏名(和/英/ヨミ) |
/ / |
第9著者 所属(和/英) |
(略称: )
(略称: ) |
第10著者 氏名(和/英/ヨミ) |
/ / |
第10著者 所属(和/英) |
(略称: )
(略称: ) |
第11著者 氏名(和/英/ヨミ) |
/ / |
第11著者 所属(和/英) |
(略称: )
(略称: ) |
第12著者 氏名(和/英/ヨミ) |
/ / |
第12著者 所属(和/英) |
(略称: )
(略称: ) |
第13著者 氏名(和/英/ヨミ) |
/ / |
第13著者 所属(和/英) |
(略称: )
(略称: ) |
第14著者 氏名(和/英/ヨミ) |
/ / |
第14著者 所属(和/英) |
(略称: )
(略称: ) |
第15著者 氏名(和/英/ヨミ) |
/ / |
第15著者 所属(和/英) |
(略称: )
(略称: ) |
第16著者 氏名(和/英/ヨミ) |
/ / |
第16著者 所属(和/英) |
(略称: )
(略称: ) |
第17著者 氏名(和/英/ヨミ) |
/ / |
第17著者 所属(和/英) |
(略称: )
(略称: ) |
第18著者 氏名(和/英/ヨミ) |
/ / |
第18著者 所属(和/英) |
(略称: )
(略称: ) |
第19著者 氏名(和/英/ヨミ) |
/ / |
第19著者 所属(和/英) |
(略称: )
(略称: ) |
第20著者 氏名(和/英/ヨミ) |
/ / |
第20著者 所属(和/英) |
(略称: )
(略称: ) |
第21著者 氏名(和/英/ヨミ) |
/ / |
第21著者 所属(和/英) |
(略称: )
(略称: ) |
第22著者 氏名(和/英/ヨミ) |
/ / |
第22著者 所属(和/英) |
(略称: )
(略称: ) |
第23著者 氏名(和/英/ヨミ) |
/ / |
第23著者 所属(和/英) |
(略称: )
(略称: ) |
第24著者 氏名(和/英/ヨミ) |
/ / |
第24著者 所属(和/英) |
(略称: )
(略称: ) |
第25著者 氏名(和/英/ヨミ) |
/ / |
第25著者 所属(和/英) |
(略称: )
(略称: ) |
第26著者 氏名(和/英/ヨミ) |
/ / |
第26著者 所属(和/英) |
(略称: )
(略称: ) |
第27著者 氏名(和/英/ヨミ) |
/ / |
第27著者 所属(和/英) |
(略称: )
(略称: ) |
第28著者 氏名(和/英/ヨミ) |
/ / |
第28著者 所属(和/英) |
(略称: )
(略称: ) |
第29著者 氏名(和/英/ヨミ) |
/ / |
第29著者 所属(和/英) |
(略称: )
(略称: ) |
第30著者 氏名(和/英/ヨミ) |
/ / |
第30著者 所属(和/英) |
(略称: )
(略称: ) |
第31著者 氏名(和/英/ヨミ) |
/ / |
第31著者 所属(和/英) |
(略称: )
(略称: ) |
第32著者 氏名(和/英/ヨミ) |
/ / |
第32著者 所属(和/英) |
(略称: )
(略称: ) |
第33著者 氏名(和/英/ヨミ) |
/ / |
第33著者 所属(和/英) |
(略称: )
(略称: ) |
第34著者 氏名(和/英/ヨミ) |
/ / |
第34著者 所属(和/英) |
(略称: )
(略称: ) |
第35著者 氏名(和/英/ヨミ) |
/ / |
第35著者 所属(和/英) |
(略称: )
(略称: ) |
第36著者 氏名(和/英/ヨミ) |
/ / |
第36著者 所属(和/英) |
(略称: )
(略称: ) |
講演者 |
第1著者 |
発表日時 |
2023-02-21 14:45:00 |
発表時間 |
15分 |
申込先研究会 |
ME |
資料番号 |
MMS2023-13, ME2023-33, AIT2023-13 |
巻番号(vol) |
vol.47 |
号番号(no) |
no.6 |
ページ範囲 |
pp.65-69 |
ページ数 |
5 |
発行日 |
2023-02-14 (MMS, ME, AIT) |
|