Por Kamal Das
Em 2019, o conselheiro permanente do governo central, representando o Ministério da Mulher e do Desenvolvimento Infantil, observou que o número de crianças combinadas usando o software de reconhecimento facial (FRS) era inferior a um por cento! O advogado lamentou que, às vezes, o FRS também não conseguia identificar o gênero correto da criança.
O FRS é um dos casos de uso mais comuns de IA na Índia, com aplicações em verificações de "conheça seu cliente" (KYC), sistemas de atendimento, triagem de emprego, segurança e aplicação da lei. Em seu estudo sobre rostos indianos em 2021, os pesquisadores Gaurav Jain e Smriti Parsheera observaram que os FRS podem classificar erroneamente até 14,68% (ou um em cada sete) das mulheres como homens. Eles também observaram que o FRS fornece previsões errôneas de idade de mais de dez anos em até 42,2% (ou três em sete) para rostos indianos.
Falta de localização: Um dos principais motivos para as altas imprecisões
Há muitos motivos para a maior imprecisão dos modelos de IA no contexto indiano. Os modelos de IA precisam de dados para serem treinados e requerem grandes quantidades de dados para poderem entender e derivar o padrão. Os dados centrados na Índia para IA não estão tão facilmente disponíveis. O maior banco de dados de imagens do mundo, o ImageNet , tem apenas 2% de imagens da Índia, embora o país represente quase 18% da população mundial. Da mesma forma, embora seis idiomas indianos façam parte dos 20 principais idiomas globais por população, a Microsoft Índia observou que nenhum desses idiomas está no topo da lista de conteúdo digital. .
Os esforços para criar e integrar os bancos de dados indianos são frequentemente atrasados. Em 2020, o National Crimes Records Bureau da Índia lançou a licitação revisada para o National Automated Facial Recognition System (Sistema Nacional de Reconhecimento Facial Automatizado), que visa integrar vários bancos de dados, como o Crime and Criminal Tracking Network & Systems (Rede e Sistemas de Rastreamento de Crimes e Criminosos), em um único grande banco de dados criminal. Esse sistema tem o potencial de ser um dos maiores sistemas de reconhecimento facial do mundo. No entanto, essa licitação foi prorrogada mais de uma dúzia de vezes!
Tem havido um esforço para melhorar a igualdade demográfica com conjuntos de dados de diversas raças e grupos, como brancos, negros, sul-asiáticos e similares. No entanto, a Índia é classificada como parte do sul da Ásia na maioria dos conjuntos de dados. Mais de 20% da população global, com imensa diversidade de idiomas e tons de pele, são frequentemente classificados como um monólito. Entretanto, nem todas as pessoas das categorias raciais são iguais. “A categoria indiano/sul asiático apresenta um excelente exemplo das armadilhas das categorias raciais”, destaca a pesquisa da Northeastern University . A IA deve abraçar e ser capaz de identificar e abraçar a diversidade dos indianos de estados como Gujarat a Arunachal Pradesh e Caxemira a Kerala.
De acordo com um estudo da Deloitte e da NASSCOM, a Índia abriga atualmente mais de 1.300 Centros de Capacidade Global, empregando cerca de 1,3 milhão de pessoas. Embora grande parte da IA global esteja sendo desenvolvida fora da Índia, o foco na IA centrada na Índia não era um foco importante anteriormente. A necessidade de ter diversidade e IA específica para cada país é um desenvolvimento recente.
Esforços para localizar a IA para a Índia
A localização da IA depende do desenvolvimento de grandes conjuntos de dados gerados pela experiência do usuário local e específica da região para personalizar a IA e entender o contexto local. De acordo com o Censo de 2011, muitas vezes esquecemos que apenas 11% dos indianos entendem inglês como primeiro, segundo ou terceiro idioma. As estimativas atuais sugerem que menos de 20% dos indianos têm confiança no inglês. Mais de 90% preferem conteúdo em sua língua materna ou em outros idiomas regionais indianos. Na comunidade de IA, percebe-se que não há material suficiente na Internet que possa ser usado para treinar a IA voltada para a Índia.
Os esforços iniciais na Índia foram feitos por multinacionais indianas para explorar o crescente mercado indiano. Elas começaram a incorporar idiomas, sotaques e estilos de fala locais. Atualmente, muitos assistentes de voz podem interpretar e responder a consultas em idiomas regionais. Em 2018, o Google Assistant introduziu o suporte para hindi. Em 2019, ele expandiu o suporte para mais oito idiomas indianos. O Windows da Microsoft agora funciona com todos os 22 idiomas indianos. No entanto, existem falhas nas habilidades de tradução. A compreensão dos idiomas regionais indianos precisa de pesquisas contínuas.
Instituições acadêmicas como o IIT Madras estão ajudando a localizar a IA. O corpo docente do principal instituto fundou a AI4Bhārat, uma comunidade sem fins lucrativos e de código aberto que colabora para criar soluções de IA para resolver os problemas da Índia. Eles estão ajudando a criar conteúdo digital em idiomas indianos que ajudará a melhorar a compreensão da IA nos idiomas indianos.
O governo indiano também está se concentrando em melhorar e aumentar o acesso a conjuntos de dados centrados na Índia. O compartilhamento de dados de cidadãos com o governo, mesmo entre vários ministérios, é lento e oneroso. Esses esforços para aumentar o compartilhamento e o acesso aos dados ganharam ritmo nos últimos anos. A Política e a Estrutura Nacional de Governança de Dados foram reintroduzidas e estão disponíveis para consulta até 11 de junho de 2022. A política visa disponibilizar conjuntos de dados em um formato anônimo para permitir que os dados não pessoais dos cidadãos disponíveis no governo sejam compartilhados com o público para melhorar o mecanismo de governança e a pesquisa centrada na Índia.
Próximas etapas: Concentre-se na qualidade e na quantidade!
Andrew Ng, professor adjunto da Universidade de Stanford, observa que dados melhores do que modelos melhores levarão à próxima onda de melhorias nas soluções de IA. Para que a Índia participe dessa onda, devemos nos concentrar na qualidade e na quantidade dos dados. Estão sendo feitos esforços para aumentar a quantidade de dados locais disponíveis centrados na Índia. Também devemos nos esforçar para garantir que a qualidade dos dados seja aprimorada. Os dados capturados devem ser auditados, e as bases devem incluir dados precisos para garantir decisões políticas adequadas. Esperamos que os esforços atuais para localizar dados e promover o compartilhamento de dados ajudem a Índia a avançar rapidamente na IA!
