Início Tecnologia As redes Arista expandem o desempenho da IA ​​com novos recursos

As redes Arista expandem o desempenho da IA ​​com novos recursos

15
0

A inteligência artificial continua sendo um ponto focal para empresas em todas as áreas de tecnologia e comunicação, pois a demanda dos clientes corporativos continua a subir, mas um dos aspectos subestimados da IA ​​é que uma rede desempenha um papel crítico no sucesso das iniciativas de IA.

Apesar do mesmo tipo de “Ai Bump”, os mercados de capitais deram às empresas de chip; Os fornecedores de rede têm sido agressivos com a evolução de seus produtos para atender às demandas da IA.

Arista Networks Inc.que é o fornecedor da rede que fez o trabalho mais eficaz de amarrar seu crescimento à IA, quarta -feira anunciado novos recursos para o seu Suíte AI Smart EOS Projetado para melhorar o desempenho e a eficiência do cluster de IA.

A empresa de Santa Clara introduziu um recurso chamado Arista Cluster Balancing Carga, ou CLB, em sua suíte AI SMART ARISTA EOS para maximizar o desempenho da carga de trabalho de AI com fluxos de rede consistentes e de baixa latência. Também anunciou que é Arista CloudVision Observabilidade universal de rede, ou CV UNOagora oferece observabilidade da IA ​​para solucionar aprimoramento de problemas e problemas para garantir uma conclusão confiável de trabalho em escala.

Benefícios de balanceamento de carga de cluster

Com base em pares de fila RDMA, o balanceamento de carga de cluster permite a alta utilização de largura de banda entre espinhos e folhas. Um dos aspectos dos clusters de IA é que eles normalmente têm baixas quantidades de fluxos de largura de banda grande, o que é diferente da rede típica, como e-mail e tráfego da Internet. A infraestrutura de rede tradicional nunca foi projetada para IA, portanto, eles não têm a taxa de transferência necessária para cargas de trabalho de IA.

Isso pode levar à distribuição desigual de tráfego e ao aumento da latência da cauda. O CLB resolve esse problema com a colocação de fluxo com reconhecimento de RDMA para fornecer alto desempenho uniforme para todos os fluxos, mantendo baixa latência na cauda. O CLB otimiza o fluxo de tráfego bidirecional-folha de folha e coluna para folhas-para fornecer às empresas utilização equilibrada e baixa latência consistente.

Com o CLB UNO, o Arista está permitindo que a rede afete diretamente o desempenho da IA ​​em um nível de aplicativo. “Com o CLB, analisamos o desempenho da rede, mas também integraremos o desempenho no nível do aplicativo, o desempenho da VM, tudo em uma tela para que os engenheiros de rede possam descobrir onde estão os problemas de desempenho e, rapidamente, encontre a causa raiz dela”, disse-me um ereto Bhaidasna, chefe de produtos de observabilidade da Arista.

Quantificando os benefícios do CLB

Pedi a Brendan Gibbs, vice -presidente de IA, roteando e trocando plataformas de Arista, para quantificar os benefícios que o CLB oferece. Ele disse que, embora todas as organizações sejam diferentes, as melhorias de desempenho são significativas. “Com grupos, uma regra geral é de cerca de 30% do tempo é gasto em redes”, disse ele. “Se pudermos fornecer 8% ou 10% da taxa de transferência nos links que os clientes já foram implantados, isso significa que uma rede Arista será mais alta, com um tempo de conclusão mais baixo do que a próxima plataforma competitiva mais próxima”.

O aumento de desempenho é notável. Com as redes tradicionais, que usam o balanceamento dinâmico de carga, ou DLB, para otimizar o tráfego, as redes com melhor desempenho operam com cerca de 90% de eficiência. Perguntei a Gibbs sobre CLB versus DLB e ele me disse que pode obter 98,3% de eficiência. Dado o custo das GPUs, todos os profissionais de tecnologia da informação com quem conversei sobre a IA querem mais taxa de transferência de rede para manter os processadores ocupados, já que a ineficiência leva ao desperdício de dólares.

Um desses clientes é Oracle Corp.que está usando o Arista Switches à medida que continua a aumentar sua infraestrutura de IA. “Vemos a necessidade de técnicas avançadas de balanceamento de carga para ajudar a evitar alegações de fluxo e aumentar a taxa de transferência nas redes de ML”, disse Jag Brar, vice -presidente e engenheiro ilustre da infraestrutura em nuvem da Oracle, no comunicado de imprensa de Arista. “O recurso de balanceamento de carga do cluster de Arista ajuda a fazer isso.” Normalmente, não retiro citações de comunicados à imprensa, mas neste caso, como o Oracle geralmente é de boca fechada sobre quem são seus fornecedores. O fato de fornecer uma citação é significativa, pois está fora da norma para o Oracle.

Ai visibilidade do trabalho

Arista disse que o CV UNO unifica os dados de tarefas de rede, sistema e IA no Arista Network Data Lake, ou NetDL, fornecendo visibilidade de trabalho de IA de ponta a ponta. O NetDL é uma estrutura de telemetria em tempo real que transmite dados granulares de rede da Arista muda para o NetDL, diferentemente da pesquisa tradicional do SNMP, que se baseia em consultas periódicas e pode perder atualizações críticas.

Embora a Arista seja um ótimo hardware, são os dados que oferecem consistência operacional e de desempenho entre os produtos. Quando o Arista foi lançado, cada dispositivo de rede tinha seu próprio banco de dados de rede, o NetDB, mas há alguns anos, ele evoluiu para um único lago de dados em seu produto e nasceu o NETDL.

O EOS NETDL oferece informações de baixa latência, alta frequência e orientadas por eventos sobre o desempenho da rede. Este é um elemento-chave para fornecer conectividade em treinamento de IA em larga escala e infraestrutura.

Benefícios do EOS NETDL Frexer

  • Monitoramento de empregos da IA: Uma visão das métricas de saúde da IA ​​no trabalho, como tempos de conclusão do trabalho, indicadores de congestionamento e insights em tempo real da utilização de buffer/link.
  • Análise de mergulho profundo: Fornece informações específicas do trabalho analisando dispositivos de rede, NICs de servidores e fluxos relacionados para identificar gargalos de desempenho com precisão.
  • Visualização de fluxo: Usa o poder do mapeamento de topologia de CV para fornecer visibilidade intuitiva e em tempo real nos fluxos de trabalho de IA na granularidade da microssegunda para acelerar a inferência e resolução de problemas.
  • Resolução proativa: Encontra anomalias rapidamente e correlaciona o desempenho da rede e do computador no NETDL para garantir a execução ininterrupta da carga de trabalho de AI de alta eficiência.

Disponibilidade

A Arista disse que o CLB está disponível hoje em suas plataformas 7260×3, 7280R3, 7500R3 e 7800R3. Ele será suportado nas plataformas 7060×6 e 7060×5. O suporte para a plataforma 7800R4 está programado para o segundo semestre deste ano.

A CV UNO está disponível hoje e os aprimoramentos de observabilidade da IA, atualmente em testes de clientes, devem estar disponíveis na segunda metade de 2025.

Zeus Kerravala é analista principal da ZK Research, uma divisão da Kerravala Consulting. Ele escreveu este artigo para Siliconangle.

Imagem: MS_tali/Adobe Stock

Seu voto de apoio é importante para nós e nos ajuda a manter o conteúdo livre.

Um clique abaixo suporta nossa missão de fornecer conteúdo gratuito, profundo e relevante.

Junte -se à nossa comunidade no YouTube

Junte -se à comunidade que inclui mais de 15.000 especialistas em #Cubealumni, incluindo o CEO da Amazon.com, Andy Jassy, ​​o fundador e CEO da Dell Technologies, Michael Dell, o CEO da Intel Pat Gelsinger e muito mais luminárias e especialistas.

“O TheCube é um parceiro importante para o setor. Vocês realmente fazem parte de nossos eventos e nós realmente apreciamos que você venha e eu sei que as pessoas apreciam o conteúdo que você cria também ” – Andy Jassy

OBRIGADO

fonte

DEIXE UMA RESPOSTA

Por favor digite seu comentário!
Por favor, digite seu nome aqui