AMD Pensando™ Pollara 400 AI NIC: Acelerando a Próxima Geração da Infraestrutura de IA

Rafael Paixão
23 de abr. de 2025
4 min de leitura

Atualizado: 18 de mai. de 2025

A nova placa de rede AMD Pensando™ Pollara 400 AI. Em um mundo onde a inteligência artificial generativa e os grandes modelos de linguagem estão em constante evolução, a capacidade de construir uma infraestrutura de computação paralela eficiente e escalável é crucial. E a AMD parece ter dado um passo gigantesco nessa direção.

Desafios e Soluções na Infraestrutura de IA

Para treinar e implementar IA de ponta, é essencial criar uma infraestrutura que ofereça o máximo desempenho para as exigentes cargas de trabalho de IA/ML, ao mesmo tempo em que proporciona a flexibilidade necessária para o futuro da IA. Um ponto chave a ser considerado é a capacidade de escalar horizontalmente a rede de comunicação GPU-GPU dentro do data center.

A AMD, mantendo seu compromisso com a escolha do cliente e um ecossistema aberto, anunciou o lançamento da placa de rede AMD Pensando™ Pollara 400 AI. Esta é a primeira NIC AI totalmente programável do setor, projetada com os padrões e recursos do Ultra Ethernet Consortium (UEC) em desenvolvimento, e já está disponível para compra.

Acelerando Cargas de Trabalho de IA em Escala

Mas como a NIC de IA Pensando Pollara 400 foi projetada para acelerar as cargas de trabalho de IA em grande escala? Provedores de serviços em nuvem, hiperescaladores e empresas buscam maximizar o desempenho de seus clusters de IA. No entanto, a rede tem sido apontada como um gargalo para a utilização ideal das GPUs. A velocidade de transferência de dados só é realmente eficaz se a rede estiver otimizada para aproveitá-la ao máximo.

Com o crescimento exponencial das cargas de trabalho de IA, as organizações não podem se dar ao luxo de subutilizar seus recursos de rede e computação. Os principais atributos das redes com altas taxas de utilização incluem balanceamento de carga inteligente, gerenciamento de congestionamento eficiente, failover rápido e recuperação de perdas eficaz. Redes de alto desempenho também precisa ser continuamente otimizadas para aumentar o tempo de atividade, reduzir os tempos de conclusão de tarefas, garantir confiabilidade, disponibilidade e facilitar a manutenção em grande escala.

Uma Infraestrutura Extensível e Preparada para o Futuro

A NIC Pensando Pollara 400 AI, alimentada pela arquitetura P4 da AMD, oferece um pipeline de hardware totalmente programável. Isso proporciona aos clientes máxima flexibilidade, desde a adição de novos recursos (como os definidos pela UEC) até o desenvolvimento de protocolos de transporte personalizados, projetados para acelerar os planos de desenvolvimento da empresa. Com essa programabilidade, os clientes não precisam esperar pela próxima geração de hardware AI NIC para acelerar suas cargas de trabalho à medida que novos padrões e iniciativas de IA surgem.

Recursos UEC para Acelerar Cargas de Trabalho de Última Geração

A NIC Pensando Pollara 400 AI incorpora recursos UEC para otimizar o desempenho:

Protocolo de transporte flexível: Suporte para RoCEv2, UEC RDMA ou qualquer protocolo Ethernet de sua escolha.
Intelligent Packet Spray: Aumenta a utilização da largura de banda da rede com pulverização de pacotes adaptativa avançada, crucial para gerenciar a alta largura de banda e a baixa latência exigidas por grandes modelos de IA.
Tratamento de pacotes fora de ordem e entrega em ordem: Reduz o tempo de buffer gerenciando de forma inteligente a chegada de pacotes fora de ordem, minimizando erros e aumentando a eficiência durante o treinamento e a inferência de IA, sem depender da malha de comutação escalável.
Retransmissão seletiva: Melhora o desempenho da rede reenviando apenas pacotes perdidos ou corrompidos através da entrega em ordem e retransmissão seletiva com confirmação (SACK).
Controle de congestionamento com reconhecimento de caminho: Otimiza o desempenho da rede com balanceamento de carga inteligente, evitando automaticamente caminhos congestionados e ajudando a manter o desempenho próximo à taxa de transmissão durante congestionamentos transitórios.

Detecção rápida de falhas: Acelera os tempos de conclusão do trabalho de IA detectando problemas em milissegundos com monitoramento ACK baseado no remetente, monitoramento de pacotes baseado no receptor e verificação baseada em sonda, permitindo failover quase instantâneo e minimizando o tempo ocioso da GPU.

Próxima Geração da Infraestrutura de IA:A Vantagem do Ecossistema Aberto

Ao oferecer compatibilidade independente de fornecedor, a AMD permite que as organizações construam uma infraestrutura de IA que atenda às demandas atuais e ofereça fácil escalabilidade e programabilidade para requisitos futuros. Essa abordagem de ecossistema aberto ajuda a reduzir o CapEx sem sacrificar o desempenho e sem a necessidade de implantar malhas caras de comutação de buffer grandes e baseadas em células.

Validação em Data Centers de Hiperescala

A NIC Pensando Pollara 400 AI já está alimentando algumas das maiores infraestruturas escaláveis do mundo, com os primeiros envios para clientes tendo sido testados por grandes provedores de serviços em nuvem (CSPs). Esses CSPs escolheram a placa de rede da AMD devido à sua programabilidade distinta, alta largura de banda, desempenho de baixa latência, conjunto de recursos avançado e infraestrutura verdadeiramente extensível e compatível em um ecossistema aberto.

Próxima Geração da Infraestrutura de IA - Essa nova placa de rede da AMD parece ser um divisor de águas para a infraestrutura de IA oferecendo o desempenho e a flexibilidade necessários para impulsionar a próxima geração de cargas de trabalho escaláveis. Estou realmente animado para ver o impacto dessa tecnologia no futuro da inteligência artificial!

NaoLocal