REPUBLIKA.CO.ID, Oleh: Galih Setiawan Nurohim, Dosen Prodi Sistem Informasi UBSI Kampus Solo
Di tengah euforia pengembangan large language model (LLM), Bahasa Indonesia kerap ditempatkan sebagai bahasa dengan sumber daya rendah. Label ini tidak sepenuhnya keliru. Namun, masalah utamanya bukan pada jumlah penutur yang sedikit, melainkan pada minimnya data pelatihan yang benar-benar berkualitas.
Dalam pandangan saya, Indonesia justru kaya penutur, tetapi miskin korpus teks yang rapi, formal, mendalam secara teknis, dan terverifikasi. Data berbahasa Indonesia yang melimpah saat ini sebagian besar berasal dari hasil web crawl yang tidak terstruktur, bercampur bahasa, penuh singkatan, ambigu, dan sarat kebisingan digital. Kondisi ini membuat AI belajar dari sumber yang rapuh sejak awal.
Sebagai dosen Sistem Informasi, saya menilai persoalan ini bukan semata isu teknis dalam machine learning, melainkan masalah struktural dalam ekosistem pengetahuan nasional.
Cara Indonesia merekam, mengelola, dan mendistribusikan pengetahuan akan sangat menentukan bagaimana kecerdasan buatan memahami realitas sosial, hukum, dan budaya lokal. Tanpa fondasi data yang sehat, AI hanya akan menjadi peniru kebisingan, bukan pewaris pengetahuan.
Secara ideal, solusi terbaik adalah anotasi manual oleh pakar lokal. Pendekatan ini menjanjikan data yang kaya konteks dan akurat. Namun, realitasnya tidak sesederhana itu.
Biaya besar, waktu panjang, dan tantangan skala nasional membuat metode ini sulit diwujudkan secara luas, terutama bagi negara berkembang seperti Indonesia. Akibatnya, pengembangan AI berbahasa Indonesia tertinggal bukan karena kekurangan talenta, tetapi karena mahalnya biaya membangun dataset berkualitas.
Dalam situasi inilah data sintetis mulai dilirik sebagai jalan tengah. Data ini dihasilkan oleh model AI lain yang berperan sebagai “guru”, menawarkan efisiensi biaya, kecepatan, dan volume produksi besar. Hanya mengingatkan, efisiensi tidak selalu sejalan dengan kualitas.
Pengalaman awal pengembangan AI di Indonesia banyak mengandalkan terjemahan dataset instruksi dari bahasa Inggris. Hasilnya memang praktis, tetapi sering terasa janggal secara bahasa dan miskin konteks lokal. Model AI menjadi fasih secara global, tetapi canggung saat berhadapan dengan realitas Indonesia.

3 hours ago
4














































