Início Tecnologia Eu testei o futuro da geração de imagens da IA. É surpreendentemente...

Eu testei o futuro da geração de imagens da IA. É surpreendentemente rápido.

13
0

Um dos principais problemas com a IA é a demanda notoriamente de alta potência e computação, especialmente para tarefas como a geração de mídia. Em telefones celulares, quando se trata de executar nativamente, apenas alguns dispositivos caros com silício poderoso podem executar o conjunto de recursos. Mesmo quando implementado em escala na nuvem, é um caso caro.

A NVIDIA pode ter abordado discretamente esse desafio em parceria com o pessoal do Instituto de Tecnologia de Massachusetts e da Universidade de Tsinghua. A equipe criou uma ferramenta híbrida de geração de imagem AI chamada Hart (Transformador autoregressivo híbrido) que combina essencialmente duas das técnicas de criação de imagem de IA mais amplamente usadas. O resultado é uma ferramenta rápida em chamas, com requisitos de computação dramaticamente mais baixa.

Só para lhe dar uma idéia de quão rápido é, pedi para criar uma imagem de um papagaio tocando um baixo. Ele voltou com a imagem a seguir em apenas um segundo. Eu mal conseguia seguir a barra de progresso. Quando empurrei o mesmo prompt antes do modelo Imagen 3 do Google em Gemini, levou aproximadamente 9 a 10 segundos em uma conexão com a Internet de 200 Mbps.

MIT / Hart

Um grande avanço

Quando as imagens de IA começaram a fazer ondas, a técnica de difusão estava por trás de tudo, alimentar produtos como O gerador de imagens Dall-E do OpenAI, o Imagen do Google e a difusão estável. Este método pode produzir imagens com um nível extremamente alto de detalhes. No entanto, é uma abordagem de várias etapas para criar imagens de IA e, como resultado, é lento e computacionalmente caro.

A segunda abordagem que ganhou popularidade recentemente são os modelos auto-regressivos, que funcionam essencialmente da mesma maneira que os chatbots e geram imagens usando uma técnica de previsão de pixels. É mais rápido, mas também um método mais propenso a erros para criar imagens usando a IA.

Demonstração no dispositivo para Hart: geração visual eficiente com transformador autoregressivo híbrido

A equipe do MIT fundiu os dois métodos em um único pacote chamado Hart. Ele se baseia em um modelo de auto -regressão para prever ativos de imagem compactados como um token discreto, enquanto um pequeno modelo de difusão lida com o restante para compensar a perda de qualidade. A abordagem geral reduz o número de etapas envolvidas de mais de duas dúzias a oito etapas.

Os especialistas por trás da Hart afirmam que pode “gerar imagens que combinam ou excedem a qualidade dos modelos de difusão de última geração, mas o fazem cerca de nove vezes mais rápido”. A Hart combina um modelo autoregressivo com uma faixa de 700 milhões de parâmetros e um pequeno modelo de difusão que pode lidar com 37 milhões de parâmetros.

Evolução do treinamento de imagem para Hart.
MIT / Hart

Resolvendo a crise de computação de custo

Curiosamente, essa ferramenta híbrida conseguiu criar imagens que correspondessem à qualidade dos modelos de primeira linha com uma capacidade de 2 bilhões de parâmetros. Mais importante ainda, Hart conseguiu alcançar esse marco com nove vezes mais rápido taxa de geração de imagens, exigindo 31% menos recursos de computação.

De acordo com a equipe, a abordagem de baixa computação permite que Hart funcione localmente em telefones e laptops, o que é uma grande vitória. Até agora, os produtos de mercado de massa mais populares, como ChatGPT e Gemini, exigem uma conexão com a Internet para geração de imagens à medida que a computação ocorre nos servidores em nuvem.

No vídeo de teste, a equipe o exibiu em execução nativamente em um laptop MSI com o processador da Intel Core Series e uma placa gráfica NVIDIA GeForce RTX. Essa é uma combinação que você pode encontrar na maioria dos laptops para jogos por aí, sem gastar uma fortuna, enquanto ela está.

Análise comparativa de imagens de IA.
MIT / Hart

O Hart é capaz de produzir imagens de proporção 1: 1 em uma resolução respeitável de 1024 x 1024 pixels. O nível de detalhe nessas imagens é impressionante, assim como a variação estilística e a precisão do cenário. Durante seus testes, a equipe observou que a ferramenta de IA híbrida estava entre três a seis vezes mais rápida e oferecida por uma taxa de transferência maior e maior.

O potencial futuro é emocionante, especialmente ao integrar os recursos de imagem da Hart com modelos de idiomas. “No futuro, pode-se interagir com um modelo generativo unificado da linguagem da visão, talvez pedindo para mostrar as etapas intermediárias necessárias para montar uma peça de mobiliário”, diz a equipe do MIT.

Eles já estão explorando essa ideia e até planejam testar a abordagem Hart em áudio e geração de vídeo. Você pode experimentar no MIT Painel da web.

Algumas bordas ásperas

Antes de mergulharmos no debate de qualidade, lembre -se de que Hart é um projeto de pesquisa que ainda está em seus estágios iniciais. No lado técnico, existem alguns aborrecimentos destacados pela equipe, como despesas gerais durante o processo de inferência e treinamento.

Falhas de Hart.
Sarwar Hart / Nadeem

Os desafios podem ser corrigidos ou esquecidos, porque são pequenos no maior esquema das coisas aqui. Além disso, considerando os benefícios que o Hart oferece em termos de eficiência, velocidade e latência da computação, eles podem apenas persistir sem levar a nenhum problema de desempenho.

No meu breve período de testes de teste, fiquei surpreso com o ritmo da geração de imagens. Eu mal encontrei um cenário em que a ferramenta web gratuita levou mais de dois segundos para criar uma imagem. Mesmo com instruções que abrangem três parágrafos (aproximadamente mais de 200 palavras), Hart foi capaz de criar imagens que aderem firmemente à descrição.

Amostra de imagens de IA gerada com hart.
Sarwar Hart / Nadeem

Além da precisão descritiva, havia muitos detalhes nas imagens. No entanto, Hart sofre com as falhas típicas de uma ferramenta de gerador de imagem de IA. Ele luta com dígitos, representações básicas, como comer itens alimentares, consistência do personagem e falhar na captura de perspectiva.

O fotorrealismo no contexto humano é uma área em que notei falhas flagrantes. Em algumas ocasiões, simplesmente errou o conceito de objetos básicos, como confundir um anel com um colar. Mas, no geral, esses erros estavam longe, poucos e fundamentalmente esperados. Um grupo saudável de ferramentas de IA ainda não consegue acertar, apesar de estar lá fora por um tempo.

No geral, estou particularmente empolgado com o imenso potencial de Hart. Seria interessante ver se o MIT e a NVIDIA criaram um produto a partir dele ou simplesmente adotar a abordagem híbrida de geração de imagens AI em um produto existente. De qualquer maneira, é um vislumbre de um futuro muito promissor.






fonte