Início Tecnologia As ações da Alibaba saltam no novo modelo de raciocínio QWQ-32B de...

As ações da Alibaba saltam no novo modelo de raciocínio QWQ-32B de código aberto

26
0

As ações do Alibaba Group Holding Ltd. subiram mais de 8% hoje após a liberação da empresa de um modelo de raciocínio com desempenho comparável ao Deepseek-R1.

O novo modelo, QWQ-32B, foi de código aberto na quarta -feira.

O R1 compreende várias redes neurais que juntas têm 671 bilhões de parâmetros. Quando o modelo recebe uma consulta, ele usa apenas uma das redes neurais para gerar uma resposta. Na prática, isso significa que o R-1 ativa apenas 37 bilhões de seus 671 bilhões de parâmetros a qualquer momento. O novo modelo QWQ-32B do Alibaba é consideravelmente menor: a empresa diz que o algoritmo possui 32,5 bilhões de parâmetros no total.

O QWQ-32B é baseado na arquitetura do transformador que sustenta a maioria dos grandes modelos de idiomas. Os LLMs baseados em transformadores usam uma técnica de aprendizado de máquina chamado atenção para inferir o significado das frases. Usando atenção, uma rede neural pode não apenas considerar vários pontos de dados, ao mesmo tempo em que a decisão também prioriza os mais importantes.

Para este modelo, o Alibaba fez várias modificações na arquitetura do transformador original. Uma das principais adições é um recurso chamado codificação posicional rotativa. A capacidade permite que o LLM entenda mais minuciosamente as relações entre os trechos de texto que ele ingere, o que ajuda a aumentar a qualidade da saída.

Ele pode processar instruções com tokens até 131.072 tokens. Um token corresponde a alguns caracteres. Alibaba diz que o modelo é particularmente hábil em tarefas de raciocínio, como escrever código, resolver problemas de matemática e executar tarefas em aplicativos externos.

A empresa desenvolveu QWQ-32B usando um método chamado aprendizado de reforço. Em um projeto de aprendizado de reforço, os pesquisadores fornecem a um modelo de IA um conjunto de tarefas de treinamento e confia um segundo modelo de IA em verificar as respostas. Quando o LLM sendo treinado conclui uma tarefa corretamente, ele recebe pontos que ajudam a orientar o processo de aprendizado.

O Alibaba desenvolveu QWQ-32B através de duas sessões de treinamento. A primeira sessão se concentrou em ensinar as habilidades de matemática e codificação modelo. Para apoiar o processo de aprendizado, o Alibaba configurou um servidor que executou o código QWQ-32B produzido durante o treinamento e o verificou quanto a erros.

Durante a segunda sessão de treinamento, a empresa aprimorou os recursos gerais de solução de problemas da QWQ-32B. A segunda sessão seguiu um fluxo de trabalho relativamente simples. No entanto, não apenas melhorou as habilidades de solução de problemas do modelo, mas também aprimorou sua capacidade de alinhar a saída com as instruções do usuário.

De acordo com o Alibaba, o QWQ-32B superou o R1 em três dos cinco benchmarks que usou para comparar o LLMS. O antigo modelo alcançou a maior diferença de ponto, uma vantagem de 6%, em uma referência que mede a capacidade da LLMS de interagir com sistemas externos. Os outros dois testes que o Alibaba usou avalia as habilidades de resposta à pergunta da LLMS e a capacidade de alinhar a produção com as introduções do usuário.

O lançamento do QWQ-32B vem dias após o Alibaba empenhado gastar 380 bilhões de yuans, ou cerca de US $ 53 bilhões, em infraestrutura de IA nos próximos três anos. Isso é mais do que a empresa investiu na IA e sua plataforma de nuvem pública na última década.

Outros gigantes da tecnologia chinesa também estão priorizando o desenvolvimento da LLM. Na semana passada, a Tencent Holdings Ltd. introduziu um modelo de raciocínio de “pensamento rápido” apelidado de Hunyuan Turbo S. Responde a solicitações em um segundo e possui qualidade de saída comparável ao Deepseek-V3, um antecessor de R1.

Imagem: Alibaba

Seu voto de apoio é importante para nós e nos ajuda a manter o conteúdo livre.

Um clique abaixo suporta nossa missão de fornecer conteúdo gratuito, profundo e relevante.

Junte -se à nossa comunidade no YouTube

Junte -se à comunidade que inclui mais de 15.000 especialistas em #Cubealumni, incluindo o CEO da Amazon.com, Andy Jassy, ​​o fundador e CEO da Dell Technologies, Michael Dell, o CEO da Intel Pat Gelsinger e muito mais luminárias e especialistas.

“O TheCube é um parceiro importante para o setor. Vocês realmente fazem parte de nossos eventos e nós realmente apreciamos que você venha e eu sei que as pessoas apreciam o conteúdo que você cria também ” – Andy Jassy

OBRIGADO

fonte