A inteligência artificial continua sendo um ponto focal para empresas em todas as áreas de tecnologia e comunicação, pois a demanda dos clientes corporativos continua a subir, mas um dos aspectos subestimados da IA é que uma rede desempenha um papel crítico no sucesso das iniciativas de IA.
Apesar do mesmo tipo de “Ai Bump”, os mercados de capitais deram às empresas de chip; Os fornecedores de rede têm sido agressivos com a evolução de seus produtos para atender às demandas da IA.
Arista Networks Inc.que é o fornecedor da rede que fez o trabalho mais eficaz de amarrar seu crescimento à IA, quarta -feira anunciado novos recursos para o seu Suíte AI Smart EOS Projetado para melhorar o desempenho e a eficiência do cluster de IA.
A empresa de Santa Clara introduziu um recurso chamado Arista Cluster Balancing Carga, ou CLB, em sua suíte AI SMART ARISTA EOS para maximizar o desempenho da carga de trabalho de AI com fluxos de rede consistentes e de baixa latência. Também anunciou que é Arista CloudVision Observabilidade universal de rede, ou CV UNOagora oferece observabilidade da IA para solucionar aprimoramento de problemas e problemas para garantir uma conclusão confiável de trabalho em escala.
Benefícios de balanceamento de carga de cluster
Com base em pares de fila RDMA, o balanceamento de carga de cluster permite a alta utilização de largura de banda entre espinhos e folhas. Um dos aspectos dos clusters de IA é que eles normalmente têm baixas quantidades de fluxos de largura de banda grande, o que é diferente da rede típica, como e-mail e tráfego da Internet. A infraestrutura de rede tradicional nunca foi projetada para IA, portanto, eles não têm a taxa de transferência necessária para cargas de trabalho de IA.
Isso pode levar à distribuição desigual de tráfego e ao aumento da latência da cauda. O CLB resolve esse problema com a colocação de fluxo com reconhecimento de RDMA para fornecer alto desempenho uniforme para todos os fluxos, mantendo baixa latência na cauda. O CLB otimiza o fluxo de tráfego bidirecional-folha de folha e coluna para folhas-para fornecer às empresas utilização equilibrada e baixa latência consistente.
Com o CLB UNO, o Arista está permitindo que a rede afete diretamente o desempenho da IA em um nível de aplicativo. “Com o CLB, analisamos o desempenho da rede, mas também integraremos o desempenho no nível do aplicativo, o desempenho da VM, tudo em uma tela para que os engenheiros de rede possam descobrir onde estão os problemas de desempenho e, rapidamente, encontre a causa raiz dela”, disse-me um ereto Bhaidasna, chefe de produtos de observabilidade da Arista.
Quantificando os benefícios do CLB
Pedi a Brendan Gibbs, vice -presidente de IA, roteando e trocando plataformas de Arista, para quantificar os benefícios que o CLB oferece. Ele disse que, embora todas as organizações sejam diferentes, as melhorias de desempenho são significativas. “Com grupos, uma regra geral é de cerca de 30% do tempo é gasto em redes”, disse ele. “Se pudermos fornecer 8% ou 10% da taxa de transferência nos links que os clientes já foram implantados, isso significa que uma rede Arista será mais alta, com um tempo de conclusão mais baixo do que a próxima plataforma competitiva mais próxima”.
O aumento de desempenho é notável. Com as redes tradicionais, que usam o balanceamento dinâmico de carga, ou DLB, para otimizar o tráfego, as redes com melhor desempenho operam com cerca de 90% de eficiência. Perguntei a Gibbs sobre CLB versus DLB e ele me disse que pode obter 98,3% de eficiência. Dado o custo das GPUs, todos os profissionais de tecnologia da informação com quem conversei sobre a IA querem mais taxa de transferência de rede para manter os processadores ocupados, já que a ineficiência leva ao desperdício de dólares.
Um desses clientes é Oracle Corp.que está usando o Arista Switches à medida que continua a aumentar sua infraestrutura de IA. “Vemos a necessidade de técnicas avançadas de balanceamento de carga para ajudar a evitar alegações de fluxo e aumentar a taxa de transferência nas redes de ML”, disse Jag Brar, vice -presidente e engenheiro ilustre da infraestrutura em nuvem da Oracle, no comunicado de imprensa de Arista. “O recurso de balanceamento de carga do cluster de Arista ajuda a fazer isso.” Normalmente, não retiro citações de comunicados à imprensa, mas neste caso, como o Oracle geralmente é de boca fechada sobre quem são seus fornecedores. O fato de fornecer uma citação é significativa, pois está fora da norma para o Oracle.
Ai visibilidade do trabalho
Arista disse que o CV UNO unifica os dados de tarefas de rede, sistema e IA no Arista Network Data Lake, ou NetDL, fornecendo visibilidade de trabalho de IA de ponta a ponta. O NetDL é uma estrutura de telemetria em tempo real que transmite dados granulares de rede da Arista muda para o NetDL, diferentemente da pesquisa tradicional do SNMP, que se baseia em consultas periódicas e pode perder atualizações críticas.
Embora a Arista seja um ótimo hardware, são os dados que oferecem consistência operacional e de desempenho entre os produtos. Quando o Arista foi lançado, cada dispositivo de rede tinha seu próprio banco de dados de rede, o NetDB, mas há alguns anos, ele evoluiu para um único lago de dados em seu produto e nasceu o NETDL.
O EOS NETDL oferece informações de baixa latência, alta frequência e orientadas por eventos sobre o desempenho da rede. Este é um elemento-chave para fornecer conectividade em treinamento de IA em larga escala e infraestrutura.
Benefícios do EOS NETDL Frexer
- Monitoramento de empregos da IA: Uma visão das métricas de saúde da IA no trabalho, como tempos de conclusão do trabalho, indicadores de congestionamento e insights em tempo real da utilização de buffer/link.
- Análise de mergulho profundo: Fornece informações específicas do trabalho analisando dispositivos de rede, NICs de servidores e fluxos relacionados para identificar gargalos de desempenho com precisão.
- Visualização de fluxo: Usa o poder do mapeamento de topologia de CV para fornecer visibilidade intuitiva e em tempo real nos fluxos de trabalho de IA na granularidade da microssegunda para acelerar a inferência e resolução de problemas.
- Resolução proativa: Encontra anomalias rapidamente e correlaciona o desempenho da rede e do computador no NETDL para garantir a execução ininterrupta da carga de trabalho de AI de alta eficiência.
Disponibilidade
A Arista disse que o CLB está disponível hoje em suas plataformas 7260×3, 7280R3, 7500R3 e 7800R3. Ele será suportado nas plataformas 7060×6 e 7060×5. O suporte para a plataforma 7800R4 está programado para o segundo semestre deste ano.
A CV UNO está disponível hoje e os aprimoramentos de observabilidade da IA, atualmente em testes de clientes, devem estar disponíveis na segunda metade de 2025.
Zeus Kerravala é analista principal da ZK Research, uma divisão da Kerravala Consulting. Ele escreveu este artigo para Siliconangle.
Imagem: MS_tali/Adobe Stock
Seu voto de apoio é importante para nós e nos ajuda a manter o conteúdo livre.
Um clique abaixo suporta nossa missão de fornecer conteúdo gratuito, profundo e relevante.
Junte -se à nossa comunidade no YouTube
Junte -se à comunidade que inclui mais de 15.000 especialistas em #Cubealumni, incluindo o CEO da Amazon.com, Andy Jassy, o fundador e CEO da Dell Technologies, Michael Dell, o CEO da Intel Pat Gelsinger e muito mais luminárias e especialistas.
OBRIGADO