【研究者】
北陸先端科学技術大学院大学 先端科学技術研究科 鵜木 祐史 教授
【研究テーマ】
ディープフェイク音声の自動判別法
【研究期間】
2021.4.1〜2023.3.31
【研究報告サマリー】
本研究では、AI音声合成技術の悪用を防ぐために、入力した音声がディープフェイク音声であるかを自動的に識別する仕組みを検討した。まず、メルスペクトルや聴覚的スペクトルのケプストラムの特徴、様々な音響特徴について包括的に調査し、機械学習ベースで合成されたなりすまし音声(フェイク音声)の検出がどの程度で可能か検討した。その結果、音声の基本周波数成分の振幅と周波数の時間変動の特徴であるシマーとジッターがフェイク音声の検出で利用すべき最良な音響特徴であることがわかった。次に、メルスペクトルとLCNN-BLSTMを組み合わせたディープフェイク音声の判別法にシマー・ジッターの特徴を組み込んだ検出法を構築した。最後に、ADD2022(Audio Deep synthesis Detection)チャレンジに準拠して提案法を評価した。その結果、シマーの情報を利用する優位性が確認され、高い検出精度(等価エラー率で29.90%)を得ることができた。
【本助成にかかわる成果】
- Speech Watermarking Method Using McAdams Coefficient Based on Random Forest Learning
- Replay Attack Detection in Automatic Speaker Verification Using Gammatone Cepstral Coefficients and ResNet-Based Model
- Improving Security in McAdams Coefficient-Based Speaker Anonymization by Watermarking Method
- Blind Speech Watermarking Method with Frame Self-Synchronization Based on Spread-Spectrum Using Linear Prediction Residue
- Data Augmentation Using McAdams-Coefficient-Based Speaker Anonymization for Fake Audio Detection
- Contribution of Timbre and Shimmer Features to Deepfake Speech Detection
- Analysis of Amplitude and Frequency Perturbation in the Voice for Fake Audio Detection
【本助成についての感想】
2年間、本課題について研究助成いただいたことに深く感謝いたします。コロナ禍のため何度も計画変更をすることになり、財団事務局には大変ご迷惑おかけしました。調査研究として今後の展開に期待できる結果が得られたものと思います。今後は、本課題で得られた成果をベースに、次の本格研究に着手していきたいと考えています。