Outro dia, outro modelo de IA do Google. Desta vez, o Google DeepMind lançou um novo membro da família de modelos abertos Gemma 4, mas é fundamentalmente diferente do resto da linha. DiffusionGemma não gera resultados linearmente como a maioria dos modelos de IA. Em vez disso, pode produzir um bloco inteiro de texto em paralelo. Google diz isso o torna mais rápido e eficiente ao executar em hardware local, como uma Nvidia DGX ou uma humilde GPU para jogos.
A maioria dos modelos de IA são projetados para serem autoregressivos – eles geram texto da esquerda para a direita, um token por vez. DiffusionGemma tem mais em comum com modelos de geração de imagens, que começam com estática e depois eliminam o ruído para criar o conteúdo desejado. Este modelo utiliza um campo de tokens de espaço reservado que percorrem a tela várias vezes para gerar tokens prováveis e usá-los para melhorar a estimativa de outros. No final do processo, o modelo finaliza suas saídas de token em um grande bloco – a tela de texto “sem ruído”.
DiffusionGemma é bastante grande no domínio dos modelos abertos do Google. É um modelo Mixture of Experts (MoE) com um total de 26 bilhões de parâmetros, mas apenas 3,8 bilhões são ativados durante a inferência. Isso significa que ele deve caber na cota de 18 GB de RAM de uma GPU de última geração. Ao testar com um RTX 5090, o DiffusionGemma emite cerca de 700 tokens por segundo. Com um único acelerador Nvidia H100 AI, DiffusionGemma pode produzir mais de 1.000 tokens por segundo. Isso é cerca de quatro vezes a produção dos modelos Gemma autoregressivos de tamanho semelhante.
Leia o artigo completo
Comentários
Leave a comment