Informasi berbasis suara tidak hanya didapat dari pihak ketiga, namun tim ASR di SRIN mengumpulkan dari berbagai lingkungan (tempat kerja, kafe) untuk direkam.
Hal ini memungkinkan kami untuk bisa menangkap suara-suara autentik yang unik dari kehidupan sehari-hari, seperti orang yang sedang memanggil atau ketikan keyboard, disampaikan Muchlisin Adi Saputra, Lead ASR.
“Kita perlu terus memperbarui bahasa slang terbaru dan cara penggunaannya. Kami banyak temukan dari media sosial,” terang dia.
Baca Juga: Fitur AI Jadi Unggulan Perangkat Samsung Galaxy S24
Tim NMT kemudian membutuhkan data untuk melatih terjemahan. “Penggunaan makna kontekstual dan implisit yang luas bergantung pada petunjuk sosial dan situasional. Data yang digunakan harus berisi banyak teks terjemahan sebagai referensi bagi AI untuk memahami kata-kata baru, kata-kata asing, kata benda, dan angka. Semua informasi dibutuhkan untuk membantu AI memahami konteks dan aturan komunikasi.” kata Muhammad Faisal, Lead NMT.
Untuk TTS memerlukan rekaman yang melibatkan berbagai macam suara dan nada, dengan pola kata terdengar dalam situasi yang berbeda. Harits Abdurrohman, Lead TTS, menegaskan.
“Rekaman suara yang baik mempercepat pekerjaan yang dilakukan karena mencakup satuan bunyi terkecil yang diperlukan AI untuk membedakan makna. Setelah mendapat rekaman suara yang baik pada fase awal, kami dapat fokus pada tahap selanjutnya yaitu penyempurnaan model AI agar dapat mengucapkan setiap kata dengan jelas,” pungkas dia.
(wep)