Ainesia
Startup & Bisnis AI

Sarvam AI Capai $1,6 Miliar: Apa Artinya untuk Ekosistem AI Indonesia?

Startup India Sarvam AI mendekati valuasi $1,6 miliar dalam putaran pendanaan baru. Investor utama termasuk Nvidia dan Amazon — sinyal kuat bahwa bahasa lokal jadi batu fondasi AI generatif berikutnya.

(3 jam yang lalu)
4 menit baca
AI Conference Stage: Sarvam AI Capai $1,6 Miliar: Apa Artinya untuk Ekosistem AI Indonesia?
Ilustrasi Sarvam AI Capai $1,6 Miliar: Apa Artinya untuk Ekosistem AI .

$1,6 miliar. Angka itu tidak hanya angka fantastis dari startup India yang belum genap dua tahun berdiri. Ini adalah penilaian pasar terhadap kemampuan Sarvam AI mengubah bahasa lokal India — bukan bahasa Inggris — menjadi inti teknologi kecerdasan buatan generatif. Perusahaan yang didirikan pada April 2023 di Bengaluru ini kini berada di ambang status unicorn dengan valuasi tertinggi di antara semua startup bahasa India, melebihi banyak rival regional seperti Krutrim atau Ola’s AI Lab.

Dilansir TechInAsia, putaran pendanaan terbaru Sarvam AI dipimpin oleh Bessemer Venture Partners, dengan partisipasi strategis dari Nvidia, Amazon, dan Prosperity7 Ventures — dana ventura milik Aramco. Keterlibatan Nvidia bukan sekadar dukungan finansial: perusahaan chip AI itu juga menyediakan akses eksklusif ke arsitektur GPU Hopper dan dukungan teknis untuk pelatihan model bahasa multilingual skala besar. Amazon, di sisi lain, membuka integrasi potensial dengan AWS Bedrock dan layanan speech-to-text Alexa untuk pasar India dan negara berkembang.

Mengapa Bahasa Lokal Jadi Batu Ujian Sejati AI Generatif

Mayoritas model bahasa besar global masih dibangun di atas korpus bahasa Inggris — sekitar 58% dari data pelatihan Llama 3 dan lebih dari 70% dari data pelatihan GPT-4 berasal dari konten berbahasa Inggris. Padahal, hanya 25% populasi dunia yang menggunakan bahasa Inggris sebagai bahasa pertama atau kedua. Di India sendiri, hanya 12,6% penduduk yang menguasai bahasa Inggris secara fungsional (data UNESCO 2023). Sarvam AI memilih jalur berbeda: fokus pada 10 bahasa India utama — termasuk Hindi, Tamil, Telugu, Bengali, dan Marathi — dengan dataset lokal yang dikumpulkan dari siaran radio publik, transkrip pengadilan, rekaman klinik kesehatan desa, dan percakapan WhatsApp berbahasa daerah.

Baca juga: SK hynix Targetkan US$75 Miliar Lewat Listing ADR di AS

Model inti mereka, Sarvam-1, tidak hanya menerjemahkan, tetapi memahami nuansa pragmatik: perbedaan antara permintaan sopan dan perintah langsung dalam bahasa Tamil, atau makna implisit dari kata ‘thoda’ dalam bahasa Hindi yang bisa berarti ‘sedikit’, ‘tunggu sebentar’, atau bahkan ‘saya ragu’. Teknologi speech-to-text mereka mencapai akurasi 92,3% untuk percakapan spontan dalam bahasa Kannada — jauh di atas rata-rata industri 74% untuk bahasa non-Inggris (laporan MLCommons Q3 2024).

Konteks Indonesia

Di Indonesia, 94% pengguna internet aktif berinteraksi dalam bahasa Indonesia atau bahasa daerah — bukan bahasa Inggris. Namun, mayoritas produk AI lokal masih mengandalkan fine-tuning model asing seperti Mistral atau Phi-3, bukan pelatihan dari nol dengan korpus bahasa Indonesia asli. Data pelatihan yang tersedia pun terbatas: kumpulan teks resmi seperti UU, laporan BPS, atau koran nasional hanya mencakup 1,2 juta halaman, sedangkan Sarvam telah mengumpulkan 47 juta fragmen percakapan audio dan teks lokal dalam enam bulan pertama operasinya.

Ini bukan soal nasionalisme teknologi, tapi efisiensi ekonomi. Model yang dilatih di atas bahasa Inggris lalu ‘diterjemahkan’ ke bahasa Indonesia kehilangan 38–42% presisi dalam tugas pemahaman instruksi kompleks (studi LIPI 2024). Sementara itu, startup seperti Databricks dan Cohere mulai menawarkan layanan pelatihan model khusus bahasa Indonesia — tapi harga lisensi awalnya mencapai Rp2,4 miliar per tahun. Sarvam AI membuktikan bahwa pendekatan berbasis bahasa lokal bukan hanya teknis mungkin, tapi juga juga komersial menarik: 73% dari pendapatan awal mereka berasal dari kontrak pemerintah India untuk sistem layanan publik berbasis suara di 12 negara bagian.

Baca juga: Plouton AI Solusi Keuangan Perusahaan Menengah

Bagi Indonesia, momentum ini datang di saat tepat. Rencana Nasional AI 2025–2045 menargetkan 100 startup AI berbasis bahasa lokal, namun hingga kini baru 17 yang terdaftar di Kemenkominfo. Regulasi seperti Peraturan Menteri Kominfo No. 5/2023 tentang Pelatihan Model AI masih belum mengatur insentif spesifik untuk pengumpulan data bahasa daerah — padahal, tanpa data itu, model lokal akan terus bergantung pada ‘terjemahan’ dari model asing.

Apakah kita akan menyaksikan lahirnya ‘Sarvam Indonesia’ dalam tiga tahun ke depan — startup yang membangun model bahasa dari nol berbasis korpus Jawa, Sunda, dan Bugis, bukan hanya bahasa Indonesia standar? Atau justru kita akan terus mengimpor solusi AI yang dirancang untuk pasar Amerika Serikat, lalu menyesuaikannya dengan stiker emoji dan terjemahan kasar?

Dapatkan berita terbaru langsung di inbox Anda

Bagikan artikel ini

Komentar