Buscar en
Cerrar este cuadro de búsqueda.
Buscar en
Cerrar este cuadro de búsqueda.

Localización de la IA en la India

Por Kamal Das

Limitaciones de la IA extranjera para crear soluciones centradas en la India

En 2019, el abogado permanente del gobierno central, en representación del Ministerio de Desarrollo de la Mujer y el Niño, señaló que el número de niños emparejados mediante software de reconocimiento facial (FRS) era inferior al uno por ciento. El letrado lamentó que, en ocasiones, el FRS tampoco fuera capaz de identificar el sexo correcto del niño.

Los FRS son uno de los usos más comunes de la IA en la India, con aplicaciones en los controles de conocimiento del cliente (KYC), los sistemas de asistencia, la selección de personal, la seguridad y la aplicación de la ley. En su estudio sobre los rostros indios en 2021, los investigadores Gaurav Jain y Smriti Parsheera observaron que los FRS pueden clasificar erróneamente hasta un 14,68% (o uno de cada siete) de mujeres como hombres. También señalan que los FRS dan predicciones de edad erróneas de más de diez años en hasta el 42,2% (o tres de cada siete) de los rostros indios.

Falta de localización: Una de las principales razones de las grandes imprecisiones

Hay muchas razones que explican la mayor inexactitud de los modelos de IA en el contexto indio. Los modelos de IA necesitan datos para ser entrenados y requieren enormes cantidades de datos para poder entender y derivar el patrón. Los datos de India para la IA no son tan fáciles de obtener. La mayor base de datos de imágenes del mundo, ImageNet , sólo tiene 2% de imágenes de la India, mientras que el país representa casi 18% de la población mundial. Del mismo modo, mientras que seis lenguas indias forman parte de las 20 primeras lenguas mundiales por población, Microsoft India señaló que ninguna de estas lenguas encabeza la lista de contenidos digitales .

Los esfuerzos por crear e integrar bases de datos indias suelen retrasarse. En 2020, la Oficina Nacional de Registros de Delitos de India publicó la licitación revisada para el Sistema Nacional de Reconocimiento Facial Automatizado, cuyo objetivo es integrar varias bases de datos, como la Red y Sistemas de Seguimiento de Delitos y Delincuencia, en una única gran base de datos criminales. Se trata de uno de los mayores sistemas de reconocimiento facial del mundo. Sin embargo, esta licitación se ha prorrogado más de una docena de veces.

Se ha hecho un esfuerzo por mejorar la igualdad demográfica con conjuntos de datos de diversas razas y grupos, como blancos, negros, sudasiáticos y similares. Sin embargo, en la mayoría de los conjuntos de datos, la India forma parte de Asia Meridional. Más de 20% de la población mundial, con una inmensa diversidad de lenguas y tonos de piel, suelen clasificarse como un monolito. Sin embargo, no todas las personas de las categorías raciales son iguales. "La categoría de indio/sudasiático presenta un excelente ejemplo de los escollos de las categorías raciales", subraya una investigación de la Universidad Northeastern. La IA debe ser capaz de identificar y aceptar la diversidad de los indios de estados como Gujarat, Arunachal Pradesh, Cachemira o Kerala.

Según un estudio de Deloitte y NASSCOM, India alberga actualmente más de 1.300 Centros de Capacidad Global que emplean a cerca de 1,3 millones de personas. Aunque gran parte de la IA mundial se está desarrollando fuera de la India, hasta ahora no se había prestado especial atención a la IA centrada en la India. La necesidad de diversidad y de una IA específica para cada país es un hecho reciente.

Esfuerzos para adaptar la IA a la India

La localización de la IA se basa en el desarrollo de grandes conjuntos de datos generados por la experiencia de usuario local y específica de la región para personalizar la IA de modo que comprenda el contexto local. Según el censo de 2011, a menudo olvidamos que solo el 11% de los indios entiende el inglés como primera, segunda o tercera lengua. Las estimaciones actuales sugieren que menos del 20% de los indios tienen confianza en el inglés. Más del 90 por ciento prefiere contenidos en su lengua materna o en otras lenguas regionales indias. En la comunidad de la IA, somos conscientes de que no tenemos suficiente material en Internet que podamos utilizar para entrenar una IA centrada en la India.

Los primeros esfuerzos en la India fueron los de las multinacionales indias para aprovechar el creciente mercado indio. Empezaron a incorporar las lenguas locales, los acentos y los estilos hablados. Hoy en día, muchos asistentes de voz pueden interpretar y responder a consultas en idiomas regionales. En 2018, Google Assistant introdujo la compatibilidad con el hindi. En 2019, amplió el soporte a ocho idiomas indios más. Windows de Microsoft ahora funciona con los 22 idiomas indios. Sin embargo, existen fallos en las capacidades de traducción. La comprensión de las lenguas regionales indias requiere una investigación continua.

Instituciones académicas como el IIT de Madrás están ayudando a localizar la IA. Profesores de este prestigioso instituto han fundado AI4Bhārat, una comunidad de código abierto sin ánimo de lucro que colabora en la creación de soluciones de IA para resolver los problemas de la India. Están ayudando a crear contenidos digitales en lenguas indias que ayudarán a mejorar la comprensión de las lenguas indias por parte de la IA.

El gobierno indio también se está centrando en mejorar y aumentar el acceso a los conjuntos de datos centrados en la India. El intercambio de datos de los ciudadanos con el Gobierno, incluso entre varios ministerios, es lento y engorroso. Estos esfuerzos por aumentar el intercambio de datos y el acceso a los mismos se han acelerado en los últimos años. Se ha reintroducido el Marco y Política Nacional de Gobernanza de Datos, que puede consultarse hasta el 11 de junio de 2022. El objetivo de esta política es facilitar conjuntos de datos en formato anónimo para que los datos no personales de los ciudadanos que obran en poder del gobierno puedan compartirse con el público con el fin de mejorar el mecanismo de gobernanza y la investigación centrada en la India.

Próximos pasos: Centrarse tanto en la calidad como en la cantidad.

Andrew Ng, profesor adjunto de la Universidad de Stanford, señala que mejores datos que mejores modelos conducirán a la próxima oleada de mejoras en las soluciones de IA. Para que la India participe en esta oleada, debemos centrarnos en la calidad y la cantidad de los datos. Se están realizando esfuerzos para aumentar la cantidad de datos locales disponibles centrados en la India. También debemos esforzarnos por garantizar la mejora de la calidad de los datos. Los datos capturados deben ser auditados, y las bases deben incluir datos precisos para garantizar decisiones políticas adecuadas. Esperamos que los esfuerzos actuales para localizar los datos y promover su intercambio ayuden a la India a avanzar rápidamente en la IA.

Más cobertura de prensa

Utilizamos cookies y/o tecnologías similares necesarias para que este sitio web funcione y para recopilar información cuando usted interactúa con este sitio web con el fin de mejorar su experiencia. Al utilizar este sitio web, usted reconoce y consiente nuestras política de cookies y política de privacidad