OpenAI Bisa Kloning Suara Manusia Bermodal Rekaman 15 Detik

Bloomberg, OpenAI memiliki fitur baru berbasis suara. Teknologi yang tengah diuji coba mampu menghasilkan suara tiruan atau kloning dengan sumber rekaman berdurasi 15 detik.

Perusahaan ini melakukan demo awal dalam skala terbats. Mencontohnya penggunaan dari preview skala kecil dari model text-to-speech, disebut Voice Engine. Fitur baru kloning suara manusia sejauh ini telah dibagikan kepada sekitar 10 pengembang, kata juru bicara OpenAI pada sebuah blog, dikutip, Senin (1/4/2024).

Tidak seperti upaya OpenAI sebelumnya dalam menghasilkan konten audio, Voice Engine dapat membuat ucapan yang terdengar seperti orang perorangan, lengkap dengan irama dan intonasi spesifik mereka. Software hanya membutuhkan 15 detik rekaman audio seseorang yang sedang berbicara untuk membuat ulang suaranya.

OpenAI kemudian membagikan hasil permulaan dari uji coba fitur yang dapat membaca kata-kata dengan suara manusia secara meyakinkan - menyoroti batas baru untuk kecerdasan buatan dan meningkatkan risiko deepfake.

Ilustrasi teknologi AI. (Dok: Bloomberg)

OpenAI memutuskan untuk tidak meluncurkan fitur yang lebih luas, seperti telah dijelaskan kepada wartawan Maret. Juru bicara selanjutnya mengatakan bahwa perusahaan memutuskan untuk mengurangi peluncurannya setelah menerima respons dari para pemangku kepentingan seperti regulator, kalangan industri, akademisi, dan kreatif.

Baca Juga

OpenAI awalnya berencana untuk merilis alat ini kepada sebanyak 100 pengembang melalui proses aplikasi.

“Kami menyadari bahwa menghasilkan ucapan yang menyerupai suara orang memiliki risiko yang serius, yang terutama menjadi perhatian utama di tahun pemilihan umum,” tulis perusahaan itu dalam sebuah posting blog.

“Kami bekerja sama dengan mitra-mitra di AS dan internasional dari seluruh pemerintahan, media, hiburan, pendidikan, masyarakat sipil, dan lainnya untuk memastikan bahwa kami memasukkan respons dari mereka saat kami membangun.”

Teknologi AI lainnya telah digunakan untuk memalsukan suara dalam beberapa konteks. Pada bulan Januari, sebuah panggilan telepon palsu namun terdengar realistis, mengaku berasal dari Presiden Joe Biden, minta orang-orang di New Hampshire tidak memberikan suara dalam pemilihan pendahuluan—sebuah peristiwa yang memicu kekhawatiran AI menjelang pemilihan global yang penting.

“Jika Anda memiliki pengaturan audio yang tepat, pada dasarnya ini adalah suara human-caliber,” kata Jeff Harris, pimpinan produk di OpenAI.

“Ini adalah kualitas teknis yang cukup mengesankan. Namun, dirinya menegaskan bahwa “Jelas ada banyak kehati-hatian dalam hal keamanan untuk meniru ucapan manusia secara akurat.”

Salah satu mitra pengembang OpenAI yang menggunakan alat ini, Norman Prince Neurosciences Institute di sistem kesehatan nirlaba Lifespan, menggunakan teknologi untuk membantu pasien memulihkan suaranya.

Sebagai contoh, alat ini digunakan untuk memulihkan suara seorang pasien muda penderita tumor otak. Ia kehilangan kemampuan berbicara dengan jelas. Alat kemudian mereplikasi pidatonya dari rekaman sebelumnya untuk proyek sekolah, kata posting blog perusahaan.

Model ucapan khusus OpenAI juga dapat menerjemahkan audio yang dihasilkannya ke dalam berbagai bahasa. Hal ini membuatnya berguna bagi perusahaan-perusahaan yang bergerak di bidang audio, seperti Spotify Technology SA.

Spotify telah menggunakan teknologi ini dalam program percontohan mereka untuk menerjemahkan podcast pembawa acara populer seperti Lex Fridman. OpenAI juga memuji aplikasi lain dari teknologi ini, seperti menciptakan suara yang lebih luas untuk konten pendidikan bagi anak-anak.

Dalam program pengujian, OpenAI mengharuskan mitranya untuk menyetujui kebijakan penggunaannya, mendapatkan persetujuan dari pemilik suara asli, sebelum menggunakan suara mereka, dan untuk mengungkapkan kepada pendengar bahwa suara yang mereka dengar adalah suara yang dihasilkan oleh AI.

Perusahaan juga memasang tanda air audio yang tidak terdengar untuk memungkinkannya membedakan apakah sebuah audio dibuat oleh alatnya.

Selama demonstrasi alat ini, Bloomberg mendengarkan klip Chief Executive Officer OpenAI, Sam Altman. Sam menjelaskan bahwa teknologi AI ini menghasilkan suara —yang tidak dapat dibedakan dari ucapannya yang sebenarnya.