O caminho pragmático da Índia para os grandes modelos de linguagem (LLMs)

"

"

O caminho pragmático da Índia para os grandes modelos de linguagem (LLMs)

Por

À medida que as nações se esforçam para desenvolver a IA generativa (GenAI) e os modelos de linguagem ampla (LLMs), a Índia se encontra em um momento crítico. Há um desejo cada vez maior de criar LLMs de base nacional. Acreditamos que essas ambições devem ser temperadas com realismo e pensamento estratégico. Em um cenário dominado por investimentos de bilhões de dólares em modelos de bilhões de parâmetros, a Índia deve avaliar cuidadosamente onde pode liderar, onde deve colaborar e onde deve simplesmente capacitar.

O atual fluxo global no desenvolvimento de modelos fundamentais, os rápidos ciclos de inovação e os enormes requisitos de capital sugerem que a criação desses modelos a partir do zero não deve ser o foco do governo indiano, pelo menos não usando fundos públicos. Em vez disso, a ênfase deve se voltar para o aproveitamento de LLMs de código aberto, permitindo o acesso ao idioma local e apoiando a inovação privada.

Modelos básicos: Alto custo, retornos incertos

A criação de um LLM básico de ponta hoje em dia é semelhante ao financiamento de um projeto de lançamento da lua. Modelos como o GPT-4 e o Gemini requerem milhares de GPUs, conjuntos de dados enormes, talentos de elite e grandes recursos financeiros. Esses modelos evoluem rapidamente, com descobertas frequentes que tornam as versões mais antigas “também perdedoras” em questão de meses.

Para uma economia em desenvolvimento como a Índia, o investimento público deve priorizar resultados escalonáveis e inclusivos. A aplicação do dinheiro do contribuinte em modelos de fundação especulativos é arriscada, sem nenhum benefício garantido. É mais prudente concentrar-se na inovação aplicada e na infraestrutura de bem público do que competir em uma corrida armamentista dominada por gigantes da tecnologia.

BharatGen e o modelo Param 1: Um passo adiante equilibrado

Um esforço notável na Índia é o consórcio BharatGen, uma colaboração de instituições acadêmicas de primeira linha - IIT Bombay, IIT Kanpur, IIT Mandi, IIT Madras, IIT Hyderabad, IIIT Hyderabad e IIM Indore. Esse consórcio lançou recentemente o Param 1, um LLM bilíngue de 2,9 bilhões de parâmetros que agora está disponível publicamente por meio da plataforma AIKosha do MeitY.

O que diferencia o Param 1 é sua composição de dados de 25% do idioma indiano, um salto significativo em relação aos 0,01% de modelos internacionais como o LLaMA da Meta. O modelo não serve como um projeto inovador, mas como um facilitador - um ponto de verificação fundamental que os desenvolvedores indianos podem ajustar para criar ferramentas de IA específicas de um domínio, como chatbots, copilotos e sistemas de conhecimento indianos.

É importante ressaltar que a BharatGen também desenvolveu 20 modelos de fala em 19 idiomas indianos, incluindo os sistemas Speaker Adaptive e Voicebox TTS. Esses modelos foram criados do zero para atender às necessidades de fala exclusivas da Índia, demonstrando que o investimento focado e intencional em uma infraestrutura de capacitação produz melhores resultados do que a tentativa de replicar modelos fundamentais globais.

Esse esforço reflete um modelo ideal para a participação do setor público - não para competir globalmente, mas para fortalecer a capacidade local e reduzir a dependência de conjuntos de dados e tecnologias estrangeiras.

Sarvam AI: Iniciativa de LLM soberano apoiada pelo governo

Em uma ação significativa no âmbito da Missão IndiaAI de ₹10.000 crore, o governo da Índia selecionou a startup Sarvam AI, sediada em Bengaluru, para desenvolver o primeiro LLM soberano do país. A Sarvam AI receberá acesso a 4.096 GPUs Nvidia H100 por seis meses para treinar um modelo de 70 bilhões de parâmetros a partir do zero. Esse modelo tem como objetivo se destacar em raciocínio, tarefas baseadas em voz e fluência em idiomas indianos, considerando o histórico do fundador com a AI4Bharat.

Exemplos globais: Use o que existe, construa o que está faltando

Países como a França (Mistral), os Emirados Árabes Unidos (Falcon) e instituições como o Meta (LLaMA 2) oferecem um roteiro valioso. Esses LLMs de código aberto de alto desempenho podem ser adaptados, localizados e combinados usando abordagens de conjunto ou de mistura de especialistas (MoE) para fornecer resultados competitivos sem o custo elevado.

A Índia deve adotar essa abordagem pragmática - usar modelos abertos, personalizá-los com conjuntos de dados indianos e ajustá-los para governança local, agricultura, educação e direito. Isso não apenas economiza recursos, mas também acelera a implementação.

A verdadeira oportunidade da Índia: Idiomas locais e interfaces de voz

A Índia deve liderar o sul global na criação de uma IA que realmente ajude todos os estratos da sociedade. O foco deve ser o alcance e a equidade, e não o tamanho do modelo. Observamos três áreas principais que terão o maior impacto:

LLMs de idioma local:
Apoiar startups que estejam criando modelos que priorizem os 22 idiomas programados da Índia. Esses esforços estão mais alinhados para ajudar a alcançar a população linguisticamente diversificada da Índia do que os modelos que priorizam o inglês. A compreensão do idioma local é a base da inclusão digital.

Interfaces de voz para as massas:
Um grande segmento de indianos permanece digitalmente excluído devido à baixa alfabetização, à baixa penetração de smartphones e à falta de conforto com teclados em inglês. Para esses cidadãos, a voz em seu idioma local é a interface mais natural. Os modelos de fala para texto e texto para fala de alta qualidade que suportam dialetos regionais são essenciais. Eles podem alimentar bots de URA, assistentes de IA e serviços de baixa largura de banda.

Sistemas multimodais:
Os sistemas de IA que combinam uma variedade de entradas, incluindo texto, fala e imagens, ajudarão com um alcance mais amplo. Por exemplo, os agricultores podem tirar fotos das plantações e obter respostas baseadas em voz em Telugu ou Odia; os cidadãos idosos podem falar com um sistema de consulta de pensões em Marathi ou Tamil. Esses sistemas exigem um pensamento que priorize a implantação, concentrando-se nas necessidades do usuário final.

O papel do governo: infraestrutura, não invenção

Em vez de se tornar um construtor de modelos de bilhões de parâmetros, o governo indiano deveria se concentrar em:

Conjuntos de dados abertos: Liberar conjuntos de dados públicos em grande escala para idiomas indianos, saúde, agricultura e governança para permitir que startups e pesquisadores ajustem os modelos existentes.
Infraestrutura de IA como um bem público: Fornecer acesso a computação (GPUs/TPUs), armazenamento e centros de modelos por meio de plataformas apoiadas pelo governo, como a AIKosha.
Capacitação política e regulatória: Incentivar a experimentação responsável, oferecer ambientes de teste e financiar implementações piloto em regiões rurais e semiurbanas.
Capacitação do setor privado: Permitir que as startups e o setor assumam riscos ousados no desenvolvimento de modelos fundamentais, enquanto o governo garante que o suporte regulatório e de infraestrutura esteja em vigor.
Conclusão: O sucesso do LLM da Índia virá da capacitação, não da construção

A Índia deve evitar cair na armadilha do nacionalismo de IA movido pela vaidade. Nossa vantagem competitiva não está no tamanho, mas na personalização, na inclusão e na implantação em escala.

Não precisamos construir o próximo GPT. Precisamos garantir que os LLMs falem idiomas indianos, entendam os contextos indianos e atendam aos cidadãos indianos, de vilarejos remotos a centros urbanos.

Com uma política favorável, acesso aberto a modelos globais e nativos e um foco incansável no valor local, a Índia pode liderar o mundo em IA aplicada. A iniciativa BharatGen, o foco Indic da Sarvam AI e os crescentes ecossistemas de código aberto.

Fonte on-line:
Computador expresso

Mais cobertura da imprensa

Utilizamos os cookies necessários e/ou tecnologias semelhantes para fazer com que este site funcione e para coletar informações quando você interage com este site para melhorar sua experiência. Ao usar este site, você reconhece e consente com nosso Política de cookies e política de privacidade