PT EN ID ES

A localização da IA para a Índia

Início

Imprensa

Por Kamal Das

Kamal Das

Por Kamal Das

7 de junho de 2022

Por Kamal Das

Limitações da IA estrangeira para criar soluções centradas na Índia

Em 2019, o conselheiro permanente do governo central, representando o Ministério da Mulher e do Desenvolvimento Infantil, observou que o número de crianças combinadas usando o software de reconhecimento facial (FRS) era inferior a um por cento! O advogado lamentou que, às vezes, o FRS também não conseguia identificar o gênero correto da criança.

O FRS é um dos casos de uso mais comuns de IA na Índia, com aplicações em verificações de "conheça seu cliente" (KYC), sistemas de atendimento, triagem de emprego, segurança e aplicação da lei. Em seu estudo sobre rostos indianos em 2021, os pesquisadores Gaurav Jain e Smriti Parsheera observaram que os FRS podem classificar erroneamente até 14,68% (ou um em cada sete) das mulheres como homens. Eles também observaram que o FRS fornece previsões errôneas de idade de mais de dez anos em até 42,2% (ou três em sete) para rostos indianos.

Falta de localização: Um dos principais motivos para as altas imprecisões

Há muitos motivos para a maior imprecisão dos modelos de IA no contexto indiano. Os modelos de IA precisam de dados para serem treinados e requerem grandes quantidades de dados para poderem entender e derivar o padrão. Os dados centrados na Índia para IA não estão tão facilmente disponíveis. O maior banco de dados de imagens do mundo, o ImageNet , tem apenas 2% de imagens da Índia, embora o país represente quase 18% da população mundial. Da mesma forma, embora seis idiomas indianos façam parte dos 20 principais idiomas globais por população, a Microsoft Índia observou que nenhum desses idiomas está no topo da lista de conteúdo digital. .

Os esforços para criar e integrar os bancos de dados indianos são frequentemente atrasados. Em 2020, o National Crimes Records Bureau da Índia lançou a licitação revisada para o National Automated Facial Recognition System (Sistema Nacional de Reconhecimento Facial Automatizado), que visa integrar vários bancos de dados, como o Crime and Criminal Tracking Network & Systems (Rede e Sistemas de Rastreamento de Crimes e Criminosos), em um único grande banco de dados criminal. Esse sistema tem o potencial de ser um dos maiores sistemas de reconhecimento facial do mundo. No entanto, essa licitação foi prorrogada mais de uma dúzia de vezes!

Tem havido um esforço para melhorar a igualdade demográfica com conjuntos de dados de diversas raças e grupos, como brancos, negros, sul-asiáticos e similares. No entanto, a Índia é classificada como parte do sul da Ásia na maioria dos conjuntos de dados. Mais de 20% da população global, com imensa diversidade de idiomas e tons de pele, são frequentemente classificados como um monólito. Entretanto, nem todas as pessoas das categorias raciais são iguais. “A categoria indiano/sul asiático apresenta um excelente exemplo das armadilhas das categorias raciais”, destaca a pesquisa da Northeastern University . A IA deve abraçar e ser capaz de identificar e abraçar a diversidade dos indianos de estados como Gujarat a Arunachal Pradesh e Caxemira a Kerala.

De acordo com um estudo da Deloitte e da NASSCOM, a Índia abriga atualmente mais de 1.300 Centros de Capacidade Global, empregando cerca de 1,3 milhão de pessoas. Embora grande parte da IA global esteja sendo desenvolvida fora da Índia, o foco na IA centrada na Índia não era um foco importante anteriormente. A necessidade de ter diversidade e IA específica para cada país é um desenvolvimento recente.

Esforços para localizar a IA para a Índia

A localização da IA depende do desenvolvimento de grandes conjuntos de dados gerados pela experiência do usuário local e específica da região para personalizar a IA e entender o contexto local. De acordo com o Censo de 2011, muitas vezes esquecemos que apenas 11% dos indianos entendem inglês como primeiro, segundo ou terceiro idioma. As estimativas atuais sugerem que menos de 20% dos indianos têm confiança no inglês. Mais de 90% preferem conteúdo em sua língua materna ou em outros idiomas regionais indianos. Na comunidade de IA, percebe-se que não há material suficiente na Internet que possa ser usado para treinar a IA voltada para a Índia.

Os esforços iniciais na Índia foram feitos por multinacionais indianas para explorar o crescente mercado indiano. Elas começaram a incorporar idiomas, sotaques e estilos de fala locais. Atualmente, muitos assistentes de voz podem interpretar e responder a consultas em idiomas regionais. Em 2018, o Google Assistant introduziu o suporte para hindi. Em 2019, ele expandiu o suporte para mais oito idiomas indianos. O Windows da Microsoft agora funciona com todos os 22 idiomas indianos. No entanto, existem falhas nas habilidades de tradução. A compreensão dos idiomas regionais indianos precisa de pesquisas contínuas.

Instituições acadêmicas como o IIT Madras estão ajudando a localizar a IA. O corpo docente do principal instituto fundou a AI4Bhārat, uma comunidade sem fins lucrativos e de código aberto que colabora para criar soluções de IA para resolver os problemas da Índia. Eles estão ajudando a criar conteúdo digital em idiomas indianos que ajudará a melhorar a compreensão da IA nos idiomas indianos.

O governo indiano também está se concentrando em melhorar e aumentar o acesso a conjuntos de dados centrados na Índia. O compartilhamento de dados de cidadãos com o governo, mesmo entre vários ministérios, é lento e oneroso. Esses esforços para aumentar o compartilhamento e o acesso aos dados ganharam ritmo nos últimos anos. A Política e a Estrutura Nacional de Governança de Dados foram reintroduzidas e estão disponíveis para consulta até 11 de junho de 2022. A política visa disponibilizar conjuntos de dados em um formato anônimo para permitir que os dados não pessoais dos cidadãos disponíveis no governo sejam compartilhados com o público para melhorar o mecanismo de governança e a pesquisa centrada na Índia.

Próximas etapas: Concentre-se na qualidade e na quantidade!

Andrew Ng, professor adjunto da Universidade de Stanford, observa que dados melhores do que modelos melhores levarão à próxima onda de melhorias nas soluções de IA. Para que a Índia participe dessa onda, devemos nos concentrar na qualidade e na quantidade dos dados. Estão sendo feitos esforços para aumentar a quantidade de dados locais disponíveis centrados na Índia. Também devemos nos esforçar para garantir que a qualidade dos dados seja aprimorada. Os dados capturados devem ser auditados, e as bases devem incluir dados precisos para garantir decisões políticas adequadas. Esperamos que os esforços atuais para localizar dados e promover o compartilhamento de dados ajudem a Índia a avançar rapidamente na IA!

Mais cobertura da imprensa

Veja mais

Wadhwani Foundation Convenes CHRO Roundtable in Bengaluru to Strengthen Local Talent Pipelines and Drive Job Creation in Karnataka.

Why Employers Keep Saying “Skills Gap” When Graduates Keep Saying “We Studied Everything”

A localização da IA para a Índia

Kamal Das

Kamal Das

Wadhwani Foundation Convenes CHRO Roundtable in Bengaluru to Strengthen Local Talent Pipelines and Drive Job Creation in Karnataka.

Huge Scope for India to Lead in Diffusion of Tech; SMEs Will Drive Jobs: Wadhwani Foundation CEO

AI Goes Local, Women Go Global: The Quiet Revolution in Rural India