Optimera pris-prestanda för LLM-inferens på NVIDIA GPU:er med Amazon SageMaker-integrationen med NVIDIA NIM Microservices | Amazon webbtjänster

Optimera pris-prestanda för LLM-inferens på NVIDIA GPU:er med Amazon SageMaker-integrationen med NVIDIA NIM Microservices | Amazon webbtjänster

Källnod: 2518910

NVIDIA NIM microtjänster nu integrera med Amazon SageMaker, så att du kan distribuera branschledande stora språkmodeller (LLM) och optimera modellprestanda och kostnad. Du kan distribuera toppmoderna LLM:er på några minuter istället för dagar med hjälp av teknik som t.ex NVIDIA TensorRT, NVIDIA TensorRT-LLMoch NVIDIA Triton Inference Server på NVIDIA-accelererade instanser som är värd för SageMaker.

NIM, en del av NVIDIA AI Enterprise programvaruplattform listad på AWS marknadsplats, är en uppsättning inferensmikrotjänster som ger kraften hos toppmoderna LLM:er till dina applikationer, ger naturlig språkbehandling (NLP) och förståelsemöjligheter, oavsett om du utvecklar chatbots, sammanfattar dokument eller implementerar andra NLP- drivna applikationer. Du kan använda förbyggda NVIDIA-behållare för att vara värd för populära LLM:er som är optimerade för specifika NVIDIA GPU:er för snabb distribution eller använda NIM-verktyg för att skapa dina egna behållare.

I det här inlägget ger vi en introduktion på hög nivå till NIM och visar hur du kan använda det med SageMaker.

En introduktion till NVIDIA NIM

NIM tillhandahåller optimerade och förgenererade motorer för en mängd populära modeller för slutledning. Dessa mikrotjänster stöder en mängd olika LLM:er, såsom Llama 2 (7B, 13B och 70B), Mistral-7B-Instruct, Mixtral-8x7B, NVIDIA Nemotron-3 22B Persona och Code Llama 70B, ur förpackningen med hjälp av pre- byggda NVIDIA TensorRT-motorer skräddarsydda för specifika NVIDIA GPU:er för maximal prestanda och utnyttjande. Dessa modeller är kurerade med de optimala hyperparametrarna för prestanda för modellvärd för att distribuera applikationer med lätthet.

Om din modell inte finns i NVIDIAs uppsättning av kurerade modeller, erbjuder NIM viktiga verktyg som Model Repo Generator, som underlättar skapandet av en TensorRT-LLM-accelererad motor och en modellkatalog i NIM-format genom en enkel YAML-fil. Dessutom ger en integrerad community-backend av vLLM stöd för banbrytande modeller och nya funktioner som kanske inte har integrerats sömlöst i den TensorRT-LLM-optimerade stacken.

Förutom att skapa optimerade LLM:er för slutledning, tillhandahåller NIM avancerade värdtekniker såsom optimerade schemaläggningstekniker som batchning under flygning, som kan bryta ner den övergripande textgenereringsprocessen för en LLM i flera iterationer på modellen. Med batchning under flygning, snarare än att vänta på att hela batchen ska slutföras innan man går vidare till nästa uppsättning förfrågningar, avvisar NIM-runtime omedelbart färdiga sekvenser från batchen. Körtiden börjar sedan köra nya förfrågningar medan andra förfrågningar fortfarande är på väg, vilket gör det bästa av dina beräkningsinstanser och GPU:er.

Distribuerar NIM på SageMaker

NIM integreras med SageMaker, vilket gör att du kan vara värd för dina LLM:er med prestanda och kostnadsoptimering samtidigt som du drar nytta av SageMakers möjligheter. När du använder NIM på SageMaker kan du använda funktioner som att skala ut antalet instanser för att vara värd för din modell, utföra blå/gröna distributioner och utvärdera arbetsbelastningar med hjälp av skuggtestning – allt med klassens bästa observerbarhet och övervakning med amazoncloudwatch.

Slutsats

Att använda NIM för att distribuera optimerade LLM:er kan vara ett bra alternativ för både prestanda och kostnad. Det hjälper också att göra implementeringen av LLM:er enkel. I framtiden kommer NIM också att tillåta anpassningsmetoder för Parameter-Efficient Fine-Tuning (PEFT) som LoRA och P-tuning. NIM planerar också att ha LLM-stöd genom att stödja Triton Inference Server, TensorRT-LLM och vLLM backends.

Vi uppmuntrar dig att lära dig mer om NVIDIAs mikrotjänster och hur du distribuerar dina LLM:er med SageMaker och testar fördelarna som är tillgängliga för dig. NIM är tillgängligt som ett betalerbjudande som en del av programvaran NVIDIA AI Enterprise tillgänglig på AWS Marketplace.

Inom en snar framtid kommer vi att lägga upp en djupgående guide för NIM på SageMaker.


Om författarna

James Park är en lösningsarkitekt på Amazon Web Services. Han arbetar med Amazon.com för att designa, bygga och distribuera tekniklösningar på AWS och har ett särskilt intresse för AI och maskininlärning. På fritiden tycker han om att söka nya kulturer, nya upplevelser och att hålla sig uppdaterad med de senaste tekniktrenderna. Du kan hitta honom på LinkedIn.

Saurabh Trikande är senior produktchef för Amazon SageMaker Inference. Han brinner för att arbeta med kunder och motiveras av målet att demokratisera maskininlärning. Han fokuserar på kärnutmaningar relaterade till att distribuera komplexa ML-applikationer, multi-tenant ML-modeller, kostnadsoptimeringar och att göra implementeringen av djupinlärningsmodeller mer tillgänglig. På sin fritid gillar Saurabh att vandra, lära sig om innovativ teknik, följa TechCrunch och umgås med sin familj.

Qing Lan är en mjukvaruutvecklingsingenjör i AWS. Han har arbetat med flera utmanande produkter i Amazon, inklusive högpresterande ML-slutledningslösningar och högpresterande loggsystem. Qings team lanserade framgångsrikt den första miljardparametermodellen i Amazon Advertising med mycket låg latens som krävs. Qing har djupgående kunskaper om infrastrukturoptimering och Deep Learning-acceleration.

Nikhil Kulkarni är en mjukvaruutvecklare med AWS Machine Learning, med fokus på att göra maskininlärningsarbetsbelastningar mer effektiva i molnet, och är en medskapare av AWS Deep Learning Containers för utbildning och slutledning. Han brinner för distribuerade Deep Learning Systems. Utanför jobbet tycker han om att läsa böcker, pilla med gitarren och göra pizza.

Harish Tummalacherla är mjukvaruingenjör med Deep Learning Performance-teamet på SageMaker. Han arbetar med prestandateknik för att servera stora språkmodeller effektivt på SageMaker. På fritiden tycker han om att springa, cykla och åka skidor i bergsklättring.

Eliuth Triana Isaza är en Developer Relations Manager på NVIDIA som ger Amazons AI MLOps, DevOps, Scientists och AWS tekniska experter möjlighet att bemästra NVIDIAs datorstack för att accelerera och optimera Generative AI Foundation-modeller som sträcker sig från datakurering, GPU-utbildning, modellinferens och produktionsinstallation på AWS GPU-instanser . Dessutom är Eliuth en passionerad mountainbike-, skid-, tennis- och pokerspelare.

Jiahong Liu är en lösningsarkitekt på Cloud Service Provider-teamet på NVIDIA. Han hjälper kunder att ta till sig maskininlärning och AI-lösningar som utnyttjar NVIDIAs accelererade datoranvändning för att hantera deras utbildnings- och slutledningsutmaningar. På sin fritid tycker han om origami, gör-det-själv-projekt och att spela basket.

Kshitiz Gupta är lösningsarkitekt på NVIDIA. Han tycker om att utbilda molnkunder om GPU AI-teknikerna NVIDIA har att erbjuda och hjälpa dem med att accelerera deras maskininlärning och djupinlärning. Utanför jobbet tycker han om att springa, vandra och titta på vilda djur.

Tidsstämpel:

Mer från AWS maskininlärning