OpenAI Berambisi Kumpulkan Data dari Banyak Bahasa dan Budaya - Teknologi

Pemodelan bahasa yang besar milik OpenAI, seperti GPT-4 yang digunakan untuk membantu menggerakkan ChatGPT. Teknologi ini mendapat asupan dari sejumlah besar tulisan dari internet sehingga mereka dapat menentukan bagaimana menghasilkan respons yang terdengar seperti manusia kepada pengguna.

Namun sistem AI ini biasanya mengandalkan data berbahasa Inggris yang secara tidak proporsional. Sistem mengabaikan budaya dan bahasa yang kurang populer di dunia maya.

Akibatnya, sistem ini dapat bias atau memberi informasi yang salah. Beberapa perusahaan teknologi, termasuk Microsoft Corp. dan Google, telah beralih ke penyedia data pihak ketiga untuk mulai mengisi kekosongan dalam berbagai bahasa.

“Kami benar-benar berpikir bahwa setiap bahasa, setiap usaha dan aktivitas manusia, adalah sesuatu yang dapat bermanfaat bagi model-model ini,” kata Presiden OpenAI Greg Brockman dalam sebuah wawancara pada hari Rabu dengan Bloomberg News.

“Ini semacam jalan dua arah: Semakin Anda dapat merepresentasikan data Anda dalam sebuah model, semakin model tersebut dapat berkinerja dengan baik di area tersebut.”

OpenAI mengatakan bahwa mereka ingin memasukkan teks, gambar, audio, dan video yang belum mudah diakses oleh masyarakat secara umum via online.

OpenAI telah bekerja sama dengan para mitra untuk mengumpulkan data pelatihan dari berbagai negara dan industri, termasuk pemerintah Islandia dan perusahaan teknologi Miðeind ehf, yang menggunakan AI untuk melestarikan bahasa Islandia.

Kemitraan ini memungkinkan OpenAI untuk meningkatkan kemampuan model AI GPT-4 untuk menerima perintah bahasa Islandia dan meresponsnya, baik dalam bahasa Inggris maupun Islandia, tergantung pada konteksnya.

Apakah OpenAI akan membayar mereka yang menyumbangkan data untuk upaya ini? Brockman mengatakan bahwa pengaturan seperti itu akan “sangat spesifik untuk para mitra.”

(bbn)