Deepseek hoje lançado Uma versão aprimorada do seu modelo de idioma grande DeepSeek-V3 sob uma nova licença de código aberto.
O desenvolvedor e blogueiro de software Simon Willison foi o primeiro a relatório a atualização. O próprio Deepseek não emitiu um anúncio. O arquivo ReadMe do novo modelo, um componente dos repositórios de código que geralmente contém notas explicativas, está atualmente vazio.
Deepseek-V3 é um LLM de código aberto que estreou em dezembro. Ele forma a base do Deepseek-R1, o modelo de raciocínio que impulsionou o laboratório de inteligência artificial chinês para destaque no início deste ano. Deepseek-V3 é um modelo de uso geral que não é otimizado especificamente para raciocínio, mas pode resolver alguns problemas de matemática e gerar código.
Até agora, o LLM era distribuído sob uma licença de código aberto personalizado. O novo lançamento que o Deepseek lançou hoje muda para a licença MIT amplamente usada. Os desenvolvedores podem usar o modelo atualizado em projetos comerciais e modificá -lo praticamente sem limitações.
Mais notavelmente, parece que a nova versão Deepseek-V3 é mais capaz e eficiente em termos de hardware que o original.
A maioria dos LLMs de ponta só pode ser executada em placas gráficas de data center. Awni Hannun, cientista de pesquisa do grupo de pesquisa de aprendizado de máquina da Apple Inc., corrido O novo lançamento do Deepseek-V3 em um Mac Studio. O modelo conseguiu gerar saída a uma taxa de cerca de 20 tokens por segundo.
O Mac Studio em questão apresentava uma configuração de ponta com um preço de US $ 9.499. Implantando Deepseek-V3 na máquina necessária para aplicar quantização de quatro bits. Esta é uma técnica de otimização de LLM que negocia alguma precisão de saída para uso e latência de memória mais baixa.
De acordo com um X Post identificado Por VentureBeat, a nova versão Deepseek-V3 é melhor na programação do que a versão original. A postagem contém o que é descrito como um teste de referência que avaliou a capacidade do modelo de gerar código Python e Bash. O novo lançamento alcançou uma pontuação de cerca de 60%, o que é vários pontos percentuais melhores que o Deepseek-V3 original.
O modelo ainda segue por trás do Deepseek-R1, o principal LLM otimizado para raciocínio do laboratório de IA. A mais recente versão do Deepseek-V3 também alcançou uma pontuação mais baixa que a QWEN-32B, outro modelo otimizado para raciocínio.
Embora o Deepseek-V3 apresente 671 bilhões de parâmetros, ele ativa apenas cerca de 37 bilhões ao responder solicitadamente. Esse arranjo permite que o modelo se contente com menos infraestrutura do que os LLMs tradicionais que ativam todos os seus parâmetros. Segundo Deepseek, o LLM também é mais eficiente que o Deepseek-R1, o que reduz os custos de inferência.
A versão original do Deepseek-V3 foi treinada em um conjunto de dados que incluía 14,8 trilhões de tokens. O processo de treinamento usou cerca de 2,8 milhões de horas de placa gráfica, significativamente menos do que o que os LLMs da Frontier normalmente exigem. Para melhorar a qualidade de saída do modelo, os engenheiros do Deepseek o ajustaram usando respostas rápidas do Deepseek-R1.
Imagem: Unsplash
Seu voto de apoio é importante para nós e nos ajuda a manter o conteúdo livre.
Um clique abaixo suporta nossa missão de fornecer conteúdo gratuito, profundo e relevante.
Junte -se à nossa comunidade no YouTube
Junte -se à comunidade que inclui mais de 15.000 especialistas em #Cubealumni, incluindo o CEO da Amazon.com, Andy Jassy, o fundador e CEO da Dell Technologies, Michael Dell, o CEO da Intel Pat Gelsinger e muito mais luminárias e especialistas.
OBRIGADO