Keikutsertaan Nvidia dalam kesepakatan pendanaan ini menopang laju investasi perseroan, yang sejak tahun 2023 telah menyalurkan modal ke penggagas proyek AI yang sedang naik daun, mulai dari Hugging Face dan Cohere hingga Mistral AI.
Twelve Labs mendapatkan dukungan dari Nvidia, yang cip-nya sangat penting untuk pelatihan dan pengembangan AI generatif. Produsen chip AS ini membangun portofolio investasi di seluruh bidang AI yang sangat penting, mulai dari perangkat keras hingga model dan aplikasi.
Pilihan terbarunya adalah startup yang berkantor pusat di San Francisco. Twelve Labs menyediakan model dasar untuk melakukan berbagai tugas, seperti membangun chatbot atau menerjemahkan bahasa.
Tujuan utamanya adalah untuk membuat video dapat dicari dan dimengerti. Twelve Labs didirikan pada tahun 2021 setelah salah satu pendirinya, Jae Lee dan Aidan Lee, bertemu saat pelatihan militer dasar di negara asalnya, Korea.
Pelanggannya meliputi influencer media sosial, pengelola liga olahraga di AS dan Eropa, serta studio film Hollywood - beberapa di antaranya memiliki arsip sejak 75 tahun yang lalu.
Perusahaan startup ini memiliki tujuan dapat mempermudah pencarian dengan mengambil momen-momen yang tepat di tengah lautan konten online - misalnya, saat pemain sepak bola tertentu merayakan touchdown dengan salto ke depan, atau saat Gordon Ramsay marah-marah karena telur yang terlalu matang.
“Video telah menjadi masalah yang sudah ada sejak puluhan tahun yang lalu di bidang AI. Video sangat padat informasi dan menantang untuk dimanfaatkan,” ujar Jae Lee, CEO Twelve Labs, kepada Bloomberg News.
“Hampir 80% data dunia ada dalam bentuk video. Bagi kami, video adalah bahasa pertama dan kami membangun teknologi kami dari bawah ke atas.”
Twelve Labs bertujuan untuk berkolaborasi dengan Nvidia untuk menghadirkan platform Marengo dan Pegasus ke hadapan lebih banyak pengguna. Tidak seperti model lain yang umumnya bekerja dengan teks, mereka memulai pelatihan dengan video, yang pada gilirannya membantu membuat pencarian berbasis visual menjadi lebih intuitif, kata Lee.
Model AI bekerja dengan video, teks, gambar dan audio, memungkinkan pencarian di berbagai jenis input data seperti teks-ke-video, teks-ke-audio dan gambar-ke-video.
“Kami memulai sebelum multimoda menjadi sesuatu. Kami memulai pekerjaan kami sebelum model dasar menjadi keren,” pungkas dia.
Twelve Labs mengatakan bahwa modelnya digunakan oleh lebih dari 30.000 pengembang di berbagai industri seperti media dan hiburan, periklanan, otomotif, dan keamanan. Twelve Labsmenggunakan modelnya untuk pencarian video semantik dan menghasilkan rangkuman.
Perusahaan startup ini memperkirakan jumlah karyawannya akan berlipat ganda menjadi sekitar 80 orang pada tahun 2024.
Model terbaru. Pegasus, yang menghasilkan teks dari video, sedang dalam tahap pengujian beta.Pegasus dirancang untuk memahami dan menelusuri konten video yang kompleks, membantu meringkas, menanyakan dan menemukan jawaban, serta menganalisis.
Twelve Labs melatih beberapa komponen dari model dasar secara bersamaan, mengurangi ukurannya menjadi sekitar seperlima dari ukuran awalnya. Hal ini pada gilirannya meningkatkan komputasi dan efisiensi energi.
Kemajuan ini membuat video menjadi mudah digunakan seperti halnya teks, dan “tidak menghabiskan banyak biaya,” pungkas Lee.
(bbn)