Pencarian
Tutup kotak pencarian ini.
Pencarian
Tutup kotak pencarian ini.

Pelokalan AI untuk India

Oleh Kamal Das

Keterbatasan AI Asing untuk membangun Solusi yang berpusat pada India

Pada tahun 2019, penasihat pemerintah pusat, yang mewakili Kementerian Pembangunan Perempuan dan Anak, mencatat bahwa jumlah anak yang dicocokkan menggunakan perangkat lunak pengenal wajah (FRS) kurang dari satu persen! Penasihat tersebut menyesalkan bahwa FRS terkadang tidak dapat mengidentifikasi jenis kelamin anak dengan benar.

FRS adalah salah satu kasus penggunaan AI yang paling umum di India, dengan aplikasi di seluruh pemeriksaan kenali pelanggan Anda (KYC), sistem kehadiran, penyaringan pekerjaan, keamanan, dan penegakan hukum. Dalam studi mereka tentang wajah-wajah India pada tahun 2021, peneliti Gaurav Jain dan Smriti Parsheera mencatat bahwa FRS dapat salah mengklasifikasikan hingga 14,68 persen (atau satu dari tujuh) perempuan sebagai laki-laki. Mereka juga mencatat bahwa FRS memberikan prediksi usia yang salah lebih dari sepuluh tahun hingga 42,2 persen (atau tiga dari tujuh) untuk wajah-wajah India.

Kurangnya Pelokalan: Alasan Utama Ketidakakuratan yang Tinggi

Ada banyak alasan untuk ketidakakuratan yang lebih tinggi dari model AI dalam konteks India. Model AI membutuhkan data untuk dilatih dan membutuhkan data dalam jumlah besar untuk dapat memahami dan mendapatkan polanya. Data yang berpusat di India untuk AI tidak mudah tersedia. Basis data gambar terbesar di dunia, ImageNet, hanya memiliki 2% gambar dari India, sementara negara ini menyumbang hampir 18% populasi dunia. Demikian pula, meskipun enam bahasa India merupakan bagian dari 20 bahasa global teratas berdasarkan populasi, Microsoft India mencatat bahwa tidak satu pun dari bahasa-bahasa ini yang berada di urutan teratas dalam daftar konten digital.

Upaya untuk membuat dan mengintegrasikan basis data India sering kali tertunda. Pada tahun 2020, Biro Catatan Kejahatan Nasional India mengeluarkan revisi tender untuk Sistem Pengenalan Wajah Otomatis Nasional, yang bertujuan untuk mengintegrasikan berbagai basis data seperti Jaringan dan Sistem Pelacakan Kejahatan dan Kriminal untuk satu basis data kriminal yang besar. Hal ini berpotensi menjadi salah satu sistem pengenalan wajah terbesar di dunia. Namun, tender ini telah diperpanjang lebih dari selusin kali!

Telah ada upaya untuk meningkatkan kesetaraan demografis dengan kumpulan data dari beragam ras dan kelompok seperti kulit putih, kulit hitam, Asia Selatan dan sejenisnya. Namun, India diklasifikasikan sebagai bagian dari Asia Selatan di sebagian besar set data. Lebih dari 20% populasi global dengan keragaman yang luar biasa dalam bahasa dan warna kulit sering diklasifikasikan sebagai satu kesatuan. Namun, tidak semua orang dari kategori ras sama. "Kategori India/Asia Selatan merupakan contoh yang sangat baik dari jebakan kategori ras," demikian hasil penelitian dari Northeastern University. AI harus merangkul dan mampu mengidentifikasi dan merangkul keragaman orang India dari negara bagian seperti Gujarat hingga Arunachal Pradesh dan Kashmir hingga Kerala.

Menurut sebuah studi yang dilakukan oleh Deloitte dan NASSCOM, India saat ini menjadi rumah bagi lebih dari 1.300 Pusat Kemampuan Global yang mempekerjakan sekitar 1,3 juta orang. Meskipun sebagian besar AI global dikembangkan di luar India, fokus pada AI yang berpusat di India belum menjadi fokus utama sebelumnya. Kebutuhan untuk memiliki keragaman dan AI yang spesifik untuk setiap negara merupakan perkembangan terbaru.

Upaya Melokalkan AI untuk India

Pelokalan AI bergantung pada pengembangan kumpulan besar data yang dihasilkan dari pengalaman pengguna lokal dan wilayah tertentu untuk menyesuaikan AI agar dapat memahami konteks lokal. Berdasarkan Sensus 2011, kita sering lupa bahwa hanya 11 persen orang India yang memahami bahasa Inggris sebagai bahasa pertama, kedua, atau ketiga. Perkiraan saat ini menunjukkan kurang dari 20 persen orang India yang percaya diri dalam bahasa Inggris. Lebih dari 90 persen lebih memilih konten dalam bahasa ibu mereka atau bahasa regional India lainnya. Dalam komunitas AI, terdapat kesadaran bahwa kami tidak memiliki cukup materi internet yang dapat kami gunakan untuk melatih AI yang berpusat di India.

Upaya awal di India dilakukan oleh MNC India untuk memasuki pasar India yang sedang berkembang. Mereka mulai memasukkan bahasa lokal, aksen dan gaya bicara. Saat ini, banyak asisten suara yang dapat menafsirkan dan menanggapi pertanyaan dalam bahasa daerah. Pada tahun 2018, Asisten Google memperkenalkan dukungan untuk bahasa Hindi. Pada tahun 2019, mereka memperluas dukungan ke delapan bahasa India lainnya. Windows Microsoft sekarang bekerja dengan semua 22 bahasa India. Namun, masih ada gangguan dalam kemampuan penerjemahan. Pemahaman bahasa daerah India membutuhkan penelitian yang berkelanjutan.

Institusi akademis seperti IIT Madras membantu melokalkan AI. Para fakultas dari institut terkemuka ini telah mendirikan AI4Bhārat, sebuah komunitas nirlaba dan sumber terbuka yang berkolaborasi untuk membangun solusi-solusi AI untuk memecahkan masalah-masalah India. Mereka membantu membangun konten digital dalam bahasa India yang akan membantu meningkatkan pemahaman AI terhadap bahasa-bahasa India.

Pemerintah India juga berfokus pada peningkatan dan peningkatan akses ke kumpulan data yang berpusat di India. Pembagian data warga negara dengan pemerintah, bahkan di antara berbagai kementerian, berjalan lambat dan memberatkan. Upaya-upaya untuk meningkatkan pembagian dan akses data ini telah mengalami kemajuan selama beberapa tahun terakhir. Kerangka Kerja dan Kebijakan Tata Kelola Data Nasional diperkenalkan kembali dan tersedia untuk konsultasi hingga 11 Juni 2022. Kebijakan ini bertujuan untuk menyediakan kumpulan data dalam format anonim untuk memungkinkan data warga negara non-pribadi yang tersedia bagi pemerintah untuk dibagikan kepada publik untuk meningkatkan mekanisme tata kelola dan penelitian yang berpusat di India.

Langkah selanjutnya: Fokus pada Kualitas dan Kuantitas!

Andrew Ng, Asisten Profesor di Stanford University, mencatat bahwa data yang lebih baik daripada model yang lebih baik akan mengarah pada gelombang peningkatan berikutnya dalam solusi AI. Agar India dapat berpartisipasi dalam gelombang ini, kita harus fokus pada kualitas data dan kuantitas data. Berbagai upaya sedang dilakukan untuk meningkatkan kuantitas data lokal yang berpusat di India yang tersedia. Kita juga harus berusaha untuk memastikan kualitas data ditingkatkan. Data yang diambil harus diaudit, dan akar rumput harus menyertakan data yang akurat untuk memastikan keputusan kebijakan yang tepat. Berharap upaya saat ini untuk melokalkan data dan mempromosikan berbagi data akan membantu India membuat langkah cepat dalam AI!

Lebih Banyak Liputan Pers

Kami menggunakan cookie yang diperlukan dan/atau teknologi serupa untuk membuat situs web ini berfungsi dan untuk mengumpulkan informasi ketika Anda berinteraksi dengan situs web ini untuk meningkatkan pengalaman Anda. Dengan menggunakan situs web ini, Anda mengakui dan menyetujui kebijakan cookie dan kebijakan privasi