抄録 |
(和) |
機械学習やコンピュータの性能の進歩により, 人の目では真贋判定が難しく, 合成・生成されたDeepFake画像が世の中に出回っている.
そのため, DeepFakeの検出研究が盛んに行われている.
Selimらによる, 動画の視覚情報のみを利用した検出がMeta主催のDeepFakeを検出するコンテストDFDC (Deep Fake Detection Challenge)で最優秀となった.
本論文では動画内の顔だけではなく, 声に注目し, 視覚情報と聴覚情報を用いた.
・口画像と無加工の音用いる手法 ・口画像と音源分離した人の声を用いる手法 ・Selimの画像処理部分と分離した人の声を組み合わせた手法の3つの手法を提案する.
Selimのモデルでは, 検出率は 92.0%であった.
口画像と無加工の音用いる手法では, 検出率は, 75.8% であった.
口画像と音源分離した人の声を用いる手法では, 検出率は, 82.0% であった.
Selimの画像処理部分と分離した人の声を組み合わせた手法の検出率は, 97%となった. |