敵対的生成ネットワークを利用した感情豊かな音声の生成

浅倉,拓也; 赤間,俊介; 山本,昇志

映像情報メディア学会研究会発表申込システム
講演論文詳細

技報閲覧サービス
技報オンライン

講演抄録／キーワード
講演名		2019-03-08 14:40 敵対的生成ネットワークを利用した感情豊かな音声の生成 ○浅倉拓也・赤間俊介・山本昇志（都立産技高専）
抄録	（和）	現在，インターネットに接続可能な音声アシスタントデバイスが普及し始めており，見守りや介護などの，人とのコミュニケーションが重要な分野への適用が期待されている．これらのデバイスが今以上に社会に受け入れられるためには，人と同様の感情を持った対話機能が必要不可欠である．そこで我々は生成モデルの一種である敵対的生成ネットワークを利用し，無感情の音声から感情豊かな音声を生成する手法を開発した．本手法では音声の周波数や強弱などの情報を特徴量として抽出し，無感情音声の基本的特定を保ちつつ，感情表現に関係のある特徴を付与できるように工夫した．最終的には生成された音声を用いて，感情表現と音質に対する主観評価を実施した．その結果，本手法を用いることで特定の感情を有した変換が可能であることを確認した．
	（英）	A voice assistant device with internet connection has been spread in the world. An efficient use of this device is expected in the communication field such as monitoring and nursing care for elder people. In order to obtain social acceptance for the voice assistant device more than ever, it is necessary to equip the function of intercommunication with emotional behavior similar to human. Therefore, we developed the learning-based method to attach an affective voice to emotionless conversation by using Generative Adversarial Networks (GANs). In this method, we first extracted emotional specifications such as frequency and strength from database. Next, we applied GANs with controlling the attachment of emotional specifications in order to keep the basic property of emotionless conversation. Finally, the subjective evaluation for emotional expression and tone quality was performed by using the generated voice samples. As the result, it is conformed that our method is possible to generate some emotional expression on its conversation.
キーワード	（和）	情動 / 音声 / 機械学習 / ニューラルネットワーク / / / /
	（英）	Emotion / Voice / Machine Learning / Neural Networks / / / /
文献情報		映情学技報, vol. 43, no. 8, HI2019-58, pp. 37-40, 2019年3月.
資料番号		HI2019-58
発行日		2019-03-01 (HI, 3DIT)
ISSN		Print edition: ISSN 1342-6893 Online edition: ISSN 2424-1970
PDFダウンロード

研究会情報
研究会	3DMT HI
開催期間	2019-03-08 - 2019-03-08
開催地（和）	工学院大学新宿キャンパス
開催地（英）	Kogakuin Univ. Tokyo Urban Tech Tower Campus
テーマ（和）	【3DIT】立体映像、VR/AR映像の人間工学的研究、立体映像技術一般【HI】視聴覚情報処理、視聴覚技術、ヒューマンインターフェース、一般
テーマ（英）
講演論文情報の詳細
申込み研究会	HI
会議コード	2019-03-3DIT-HI
本文の言語	日本語
タイトル（和）	敵対的生成ネットワークを利用した感情豊かな音声の生成
サブタイトル（和）
タイトル（英）	Affective Voice Generator by using Generative Adversarial Networks
サブタイトル（英）
キーワード(1)（和/英）	情動 / Emotion
キーワード(2)（和/英）	音声 / Voice
キーワード(3)（和/英）	機械学習 / Machine Learning
キーワード(4)（和/英）	ニューラルネットワーク / Neural Networks
キーワード(5)（和/英）	/
キーワード(6)（和/英）	/
キーワード(7)（和/英）	/
キーワード(8)（和/英）	/
第1著者氏名（和/英/ヨミ）	浅倉拓也 / Takuya Asakura / アサクラタクヤ
第1著者所属（和/英）	東京都立産業技術高等専門学校 (略称：都立産技高専) Tokyo Metropolitan College of Industrial Technology (略称： TMCIT)
第2著者氏名（和/英/ヨミ）	赤間俊介 / Shunsuke Akama / アカマシュンスケ
第2著者所属（和/英）	東京都立産業技術高等専門学校 (略称：都立産技高専) Tokyo Metropolitan College of Industrial Technology (略称： TMCIT)
第3著者氏名（和/英/ヨミ）	山本昇志 / Shoji Yamamoto / ショウジヤマモト
第3著者所属（和/英）	東京都立産業技術高等専門学校 (略称：都立産技高専) Tokyo Metropolitan College of Industrial Technology (略称： TMCIT)
第4著者氏名（和/英/ヨミ）	/ /
第4著者所属（和/英）	(略称： ) (略称： )
第5著者氏名（和/英/ヨミ）	/ /
第5著者所属（和/英）	(略称： ) (略称： )
第6著者氏名（和/英/ヨミ）	/ /
第6著者所属（和/英）	(略称： ) (略称： )
第7著者氏名（和/英/ヨミ）	/ /
第7著者所属（和/英）	(略称： ) (略称： )
第8著者氏名（和/英/ヨミ）	/ /
第8著者所属（和/英）	(略称： ) (略称： )
第9著者氏名（和/英/ヨミ）	/ /
第9著者所属（和/英）	(略称： ) (略称： )
第10著者氏名（和/英/ヨミ）	/ /
第10著者所属（和/英）	(略称： ) (略称： )
第11著者氏名（和/英/ヨミ）	/ /
第11著者所属（和/英）	(略称： ) (略称： )
第12著者氏名（和/英/ヨミ）	/ /
第12著者所属（和/英）	(略称： ) (略称： )
第13著者氏名（和/英/ヨミ）	/ /
第13著者所属（和/英）	(略称： ) (略称： )
第14著者氏名（和/英/ヨミ）	/ /
第14著者所属（和/英）	(略称： ) (略称： )
第15著者氏名（和/英/ヨミ）	/ /
第15著者所属（和/英）	(略称： ) (略称： )
第16著者氏名（和/英/ヨミ）	/ /
第16著者所属（和/英）	(略称： ) (略称： )
第17著者氏名（和/英/ヨミ）	/ /
第17著者所属（和/英）	(略称： ) (略称： )
第18著者氏名（和/英/ヨミ）	/ /
第18著者所属（和/英）	(略称： ) (略称： )
第19著者氏名（和/英/ヨミ）	/ /
第19著者所属（和/英）	(略称： ) (略称： )
第20著者氏名（和/英/ヨミ）	/ /
第20著者所属（和/英）	(略称： ) (略称： )
講演者	第1著者
発表日時	2019-03-08 14:40:00
発表時間	20分
申込先研究会	HI
資料番号	HI2019-58, 3DIT2019-10
巻番号（vol）	vol.43
号番号（no）	no.8
ページ範囲	pp.37-40
ページ数	4
発行日	2019-03-01 (HI, 3DIT)

[研究会発表申込システムのトップページに戻る]

[映像情報メディア学会ホームページ]

ITE / 映像情報メディア学会