NVIDIA Groq 3 LPX

O acelerador de inferência para o NVIDIA Vera Rubin.

Visão geral

A Velocidade Encontra a Escala

No passado, as arquiteturas de inferência de IA ofereciam interatividade e inteligência ao custo da taxa de transferência ou taxa de transferência e inteligência ao custo da interatividade. Não era possível ter os três. Os sistemas baseados em agentes exigem mais.

O NVIDIA Groq 3 LPX é o acelerador de inferência para o NVIDIA Vera Rubin, projetado para atender às demandas de baixa latência e grande contexto de sistemas baseados em agentes. O Vera Rubin e o LPX unem o desempenho extremo das GPUs e LPUs NVIDIA Rubin por meio de uma arquitetura projetada em conjunto.

O NVIDIA Vera Rubin Abre a Fronteira da IA Baseada em Agentes

A plataforma NVIDIA Vera Rubin inclui sete novos chips em produção total para escalar as principais fábricas de IA do mundo.

Por Dentro do NVIDIA Groq 3 LPX: O Sétimo Chip da Plataforma NVIDIA Vera Rubin

O NVIDIA Groq 3 LPX estende a fábrica de IA com geração de tokens determinista e de baixa latência que complementa as GPUs NVIDIA Rubin para cargas de trabalho de inferência em tempo real.

Desempenho de Inferência

Latência Extremamente Baixa com Taxa de Transferência Elevada

Ao combinar GPUs Rubin para memória de alta largura de banda (HBM) e LPUs para memória estática de acesso aleatório (SRAM), o NVIDIA Vera Rubin com LPX oferece uma nova classe de desempenho de inferência para modelos de trilhões de parâmetros e contexto de milhões de tokens. Implantadas com o Vera Rubin NVL72, as GPUs e LPUs Rubin impulsionam a decodificação, computando conjuntamente todas as camadas do modelo de IA para todos os tokens de saída.

35 Vezes Mais Taxa de Transferência para Modelos com Trilhões de Parâmetros

Sistemas baseados em agentes consomem até 15 vezes mais tokens do que aplicações de IA tradicionais. As fábricas de IA precisam garantir alto volume de tokens e janelas de contexto massivas com baixa latência e economia eficiente. Combinada com o LPX, a Vera Rubin oferece até 35 vezes mais taxa de transferência por megawatt para modelos com trilhões de parâmetros.

Projected performance subject to change.


Uma Nova Categoria de Inferência: Oportunidade de Receita 10 Vezes Maior

Agentes são unidades de inteligência, e a inferência é o seu combustível. Para gerar valor no mundo real, os sistemas baseados em agentes precisam de tokens de alto valor, mais rápidos e com maior capacidade de contexto. Quando o LPX é combinado com a Vera Rubin, as fábricas de IA podem produzir tokens premium em escala, desbloqueando 10 vezes mais receita por watt.

Projected revenue based on AI factory throughput per gigawatt and estimated cost-per-million-tokens tiered pricing model.

Acelerador de Inferência NVIDIA Groq 3 LPU

A LPU NVIDIA Groq 3 é a próxima geração da unidade de processamento de linguagem inovadora da Groq. Cada rack LPX apresenta 256 aceleradores de LPU interconectados que, juntamente com a plataforma NVIDIA Vera Rubin, superpotencializam a inferência. Cada acelerador de LPU oferece 500 megabytes (MB) de SRAM, 150 terabytes por segundo (TB/s) de largura de banda SRAM e largura de banda de escalabilidade de 2,5 TB/s.

Acelerador de Inferência NVIDIA Groq 3 LPU

A LPU NVIDIA Groq 3 é a próxima geração da unidade de processamento de linguagem inovadora da Groq. Cada rack LPX apresenta 256 aceleradores de LPU interconectados que, juntamente com a plataforma NVIDIA Vera Rubin, superpotencializam a inferência. Cada acelerador de LPU oferece 500 megabytes (MB) de SRAM, 150 terabytes por segundo (TB/s) de largura de banda SRAM e largura de banda de escalabilidade de 2,5 TB/s.

Inovações Tecnológicas

Co-Design Extremo. Resultados Extraordinários.

Criado por meio de co-design extremo, o NVIDIA Vera Rubin NVL72 unifica sete chips especialmente criados em um único supercomputador de IA.

Escala de Rack

Em um rack LPX, 256 chips LPU se juntam para oferecer desempenho extremo.

Arquitetura de Memória de Fusão

Em cada rack, o LPX oferece 128 GB de SRAM para processamento de baixa latência e 12 TB de memória DDR5 para grandes modelos e cargas de trabalho.

SRAM de Alta Velocidade

40 petabytes por segundo (PB/s) de largura de banda SRAM por rack oferece baixa latência.

Largura de Banda de Escalabilidade Massiva

Os links diretos de chip a chip oferecem 640 TB/s de largura de banda de escalabilidade em todo o rack LPX para comunicação de chip de baixa latência.

Conexão de Alta Velocidade com NVIDIA NVL72

As conexões de alta velocidade da LPX com o NVL72 reduzem a latência para quase zero.

Rack NVIDIA MGX ETL

O LPX aproveita o rack NVIDIA MGX™ de extração, transformação e carregamento (ETL), permitindo que as fábricas de tokens planejem um único rack universal em suas implantações da plataforma NVIDIA Vera Rubin.

Comece Agora

Mantenha-se por Dentro das Notícias da NVIDIA

Inscreva-se para receber as últimas notícias, atualizações e novidades da NVIDIA.