Los grandes modelos de lenguaje (LLM) representan un gran avance en la IA, con la promesa de transformar los dominios a través del conocimiento aprendido. El tamaño de los LLM se ha multiplicado por 10 cada año en los últimos años, y a medida que estos modelos crecen en complejidad y tamaño, también lo hacen sus capacidades.
Sin embargo, los LLM son difíciles de desarrollar y mantener, lo que los hace inaccesibles para la mayoría de las empresas.
para la realización de preguntas y respuestas inteligentes y la atención al cliente en tiempo real.
para el comentario dinámico y la generación de funciones.
para los idiomas y Wikipedia.
El servicio NeMo LLM que se ejecuta en la plataforma de IA de NVIDIA proporciona a las empresas la vía más rápida para personalizar e implantar los LLM en nubes privadas y públicas o acceder a ellos a través del servicio API.
El servicio NeMo LLM expone el modelo NVIDIA Megatron 530B como una API en la nube. Prueba las capacidades del modelo 530B a través de Playground o de las APIs de transferencia de estado representacional (REST).
NeMo Megatron es un framework integral para el entrenamiento y el despliegue de LLM con miles de millones o trillones de parámetros.
El framework de trabajo en contenedores ofrece una alta eficiencia de entrenamiento en miles de GPUs y hace que sea práctico para las empresas construir y desplegar modelos a gran escala. Proporciona capacidades para curar los datos de entrenamiento, entrenar modelos a gran escala de hasta billones de parámetros, personalizar usando el aprendizaje rápido e implementar usando el Servidor de Inferencia NVIDIA Triton™ para ejecutar modelos a gran escala en múltiples GPUs y múltiples nodos.
NeMo Megaton está optimizado para ejecutarse en NVIDIA DGX™ Foundry, NVIDIA DGX SuperPOD™, Amazon Web Services, Microsoft Azure y Oracle Cloud Infrastructure.
Los científicos e ingenieros de datos están empezando a superar los límites de lo que es posible con los grandes modelos de lenguaje. El Servidor de Inferencia NVIDIA Triton es un software de inferencia de código abierto que puede utilizarse para implementar, ejecutar y escalar modelos de lenguaje. Admite la inferencia en múltiples GPUs y nodos para modelos grandes de lenguaje utilizando un backend FasterTransformer. Triton utiliza el paralelismo tensorial y de pipeline y la interfaz de paso de mensajes (MPI) y la biblioteca de comunicación colectiva de NVIDIA (NCCL) para la inferencia distribuida de alto rendimiento y admite GPT, T5 y otros LLM. La funcionalidad de inferencia de LLM está en fase beta
BioNeMo es un servicio en la nube para el descubrimiento de fármacos impulsado por la IA y un framework basado en NVIDIA NeMo Megatron para el entrenamiento y la implementación de grandes modelos de IA de transformadores biomoleculares a escala de supercomputación. El servicio incluye LLMs preentrenados y soporte nativo para formatos de archivo comunes para proteínas, ADN, ARN y química, proporcionando cargadores de datos para SMILES para estructuras moleculares y FASTA para secuencias de aminoácidos y nucleótidos. El framework BioNeMo también estará disponible para su descarga para ser ejecutado en su propia infraestructura.
Mantente al día de las últimas actualizaciones de los productos Servidor de Inferencia NVIDIA Triton y NVIDIA® TensorRT™, contenidos, noticias y mucho más.
Consulta las últimas sesiones a la carta sobre LLM del GTC de NVIDIA.
Lea sobre la evolución del uso de la inferencia, las consideraciones para una inferencia óptima y la plataforma de IA de NVIDIA.
Prueba el servicio NVIDIA NeMo LLM hoy mismo.