O acelerador de inferência para o NVIDIA Vera Rubin.
Visão geral
No passado, as arquiteturas de inferência de IA ofereciam interatividade e inteligência ao custo da taxa de transferência ou taxa de transferência e inteligência ao custo da interatividade. Não era possível ter os três. Os sistemas baseados em agentes exigem mais.
O NVIDIA Groq 3 LPX é o acelerador de inferência para o NVIDIA Vera Rubin, projetado para atender às demandas de baixa latência e grande contexto de sistemas baseados em agentes. O Vera Rubin e o LPX unem o desempenho extremo das GPUs e LPUs NVIDIA Rubin por meio de uma arquitetura projetada em conjunto.
Desempenho de Inferência
Ao combinar GPUs Rubin para memória de alta largura de banda (HBM) e LPUs para memória estática de acesso aleatório (SRAM), o NVIDIA Vera Rubin com LPX oferece uma nova classe de desempenho de inferência para modelos de trilhões de parâmetros e contexto de milhões de tokens. Implantadas com o Vera Rubin NVL72, as GPUs e LPUs Rubin impulsionam a decodificação, computando conjuntamente todas as camadas do modelo de IA para todos os tokens de saída.
Sistemas baseados em agentes consomem até 15 vezes mais tokens do que aplicações de IA tradicionais. As fábricas de IA precisam garantir alto volume de tokens e janelas de contexto massivas com baixa latência e economia eficiente. Combinada com o LPX, a Vera Rubin oferece até 35 vezes mais taxa de transferência por megawatt para modelos com trilhões de parâmetros.
Projected performance subject to change.
Agentes são unidades de inteligência, e a inferência é o seu combustível. Para gerar valor no mundo real, os sistemas baseados em agentes precisam de tokens de alto valor, mais rápidos e com maior capacidade de contexto. Quando o LPX é combinado com a Vera Rubin, as fábricas de IA podem produzir tokens premium em escala, desbloqueando 10 vezes mais receita por watt.
Projected revenue based on AI factory throughput per gigawatt and estimated cost-per-million-tokens tiered pricing model.
A LPU NVIDIA Groq 3 é a próxima geração da unidade de processamento de linguagem inovadora da Groq. Cada rack LPX apresenta 256 aceleradores de LPU interconectados que, juntamente com a plataforma NVIDIA Vera Rubin, superpotencializam a inferência. Cada acelerador de LPU oferece 500 megabytes (MB) de SRAM, 150 terabytes por segundo (TB/s) de largura de banda SRAM e largura de banda de escalabilidade de 2,5 TB/s.
Inovações Tecnológicas
Criado por meio de co-design extremo, o NVIDIA Vera Rubin NVL72 unifica sete chips especialmente criados em um único supercomputador de IA.
Em um rack LPX, 256 chips LPU se juntam para oferecer desempenho extremo.
Em cada rack, o LPX oferece 128 GB de SRAM para processamento de baixa latência e 12 TB de memória DDR5 para grandes modelos e cargas de trabalho.
40 petabytes por segundo (PB/s) de largura de banda SRAM por rack oferece baixa latência.
Os links diretos de chip a chip oferecem 640 TB/s de largura de banda de escalabilidade em todo o rack LPX para comunicação de chip de baixa latência.
As conexões de alta velocidade da LPX com o NVL72 reduzem a latência para quase zero.
O LPX aproveita o rack NVIDIA MGX™ de extração, transformação e carregamento (ETL), permitindo que as fábricas de tokens planejem um único rack universal em suas implantações da plataforma NVIDIA Vera Rubin.
Inscreva-se para receber as últimas notícias, atualizações e novidades da NVIDIA.