Baidu Deep Voice

Search engine yang berasal dari China, Baidu mulai mengembangkan neural voice cloning pada tahun 2017. Projek tersebut bertujuan untuk menghasilkan suara manusia dari tulisan. Model tersebut dapat mempelajari irama, aksen, pengucapan, dan nada untuk menciptakan reka ulang suara pembicara yang sangat akurat. Berdasarkan informasi yang dipublikasikan oleh Baidu Research, mereka mengklaik bahwa model mereka hanya membutuhkan waktu 3 detik untuk menduplikasi dan membuat suara seseorang.

Peneliti menggunakan dua fundamental pendekatan yaitu speaker adaption dan speaker encoding. Speaker adaption didasarkan pada model generatif multi-speaker yang menggunakan backpropagation-based. Speaker encoding menggabungkan model yang menghasilkan speaker embedding dari audio kloning dengan model generatif multi-speaker, yang membantu mengurangi waktu kloning. Berikut ini beberapa contoh hasil voice cloning.

Kegunaan dari teknologi ini adalah untuk meningkatkan kualitas dari digital asisten seperti Siri, Alexa, maupun Google Assistant. Baidu juga mengklaim bahwa teknologi tersebut akan membantu orang-orang yang kehilangan suara untuk bisa berkomunikasi kembali. Namun klaim tersebut masih perlu dilihat apakah teknologinya cukup maju untuk melakukan hal itu.

Jika anda mendengarkan contoh hasil voice cloning di atas maka dapat didengar bahwa hasil kloningan suara cukup berbeda dengan suara asli. Sedangkan berikut adalah contoh hasil kloningan dengan jumlah speaker yang lebih banyak untuk train data serta waktu TTS data lebih lama. Terdengar jelas kloningan suara sangat mirip dengan suara asli.

Sumber:

Deep Voice 3: 2000-Speaker Neural Text-to-Speech

Neural Voice Cloning with a Few Samples

Top 20 Applications of Deep Learning in 2021 Across Industries

Baidu’s ‘Deep Voice’ AI System can Clone your Voice

Tinggalkan komentar