Semana passada, Bgr relatou a jornada de Claude tocando Pokemon Red. Enquanto milhares de jogadores jogando ao mesmo tempo foram mais eficientes – já que a IA ainda está presa no Monte – os pesquisadores acham que o próximo avanço da IA pode estar relacionado a jogos ao vivo.
Liderado por Hao Zhang, professor assistente de UC San Diegoa equipe de pesquisa está desenvolvendo estruturas personalizadas para Teste os recursos dos principais modelos de IA em jogos.
Embora Claude tenha sido meio desastroso interpretando Pokemon Red (parece que não tem o que é preciso para se tornar um mestre de Pokemon), ele é um pouco menos que Gemini-1.5 Pro e GPT-4o. Comparando Claude-3.7 e Claude-3.5, a IA mais recente é mais receptiva e parece saber um pouco mais sobre o que precisa ser feito no Super Mario Bros. Além deste jogo clássico da Nintendo, os pesquisadores também estão testando 2048 e Tetris, com mais jogos em breve.
Outro teste é com o Roblox. UM Postagem do blog Explica: “Desenvolvemos um jogo Live Roblox, AI Space Escape, alimentado por Modelos de Linguagem (LLMS) de última geração, oferecendo uma experiência única para raciocinar com a IA. Além do entretenimento, nosso jogo gera dados de jogos para avaliar as habilidades de raciocínio de IA em cenários do mundo real, estendendo-se além dos benchmarks de matemática e codificação. Todos os dados de jogos, scripts de avaliação e código estão disponíveis publicamente para mais pesquisas. ”
Ainda temos que esperar por Claude e outras melhorias de IA para ver como esses modelos podem continuar a evoluir jogando jogos. Para o experimento Pokemon Red, o desenvolvedor explicou que o que diferencia Claude é que ele pode ver o que está acontecendo, entender o estado do jogo e tomar decisões “semelhantes a como um jogador humano faria” – embora eu possa discordar, pois a IA ainda está sofrendo de passar por uma das primeiras “masmorras” do jogo.