O Google lançou seus modelos abertos Gemma 4 nesta primavera, prometendo um novo nível de potência e desempenho para IA local. A abordagem da IA de ponta do Google já pode estar ficando ainda mais rápida com o lançamento do Previsão de vários tokens (MTP) redatores para Gemma. O Google diz que esses modelos experimentais aproveitam uma forma de decodificação especulativa para adivinhar os tokens futuros, o que pode acelerar a geração em comparação com a forma como os modelos geram tokens por conta própria.
Os modelos Gemma mais recentes são construídos com base na mesma tecnologia subjacente que alimenta a fronteira Gemini AI do Google, mas estão ajustados para funcionar localmente. Gemini é otimizado para rodar em chips TPU personalizados do Google, que operam em enormes clusters com interconexões e memória super-rápidas. Um único acelerador de IA de alta potência pode executar o maior modelo Gemma 4 com precisão total, e a quantização permitirá que ele seja executado em uma GPU de consumidor.
Gemma permite que os usuários mexam com IA em seu hardware, em vez de compartilhar todos os seus dados com um sistema de IA em nuvem do Google ou de outra pessoa. O Google também mudou a licença do Gemma 4 para Apache 2.0, que é muito mais permissiva do que a licença personalizada do Gemma que o Google empregou para versões anteriores. No entanto, existem limitações inerentes ao hardware que a maioria das pessoas possui para executar modelos locais de IA. É aí que entra o MTP.
Leia o artigo completo
Comentários
Leave a comment