Nvidia a lansat cipul Groq 3 LPU, care accelerează inferența modelelor AI până la nivel de tokenuri.

Nvidia dezvăluie noi funcționalități ale platformei Vera Rubin

La conferința GTC din acest an, directorul general al Nvidia, Jensen Huang, a anunțat extinderea platformei Vera Rubin. Noile capacități se bazează pe proprietatea intelectuală achiziționată de la compania Groq și în compoziția Rubin a fost adăugat cipul *Groq 3 LPU* – un accelerator de inferență conceput pentru emiterea token-urilor cu viteză mare și latență scăzută.

Ce există deja în Vera Rubin
Platforma este alcătuită din șase componente cheie pe care Nvidia le asamblează în sisteme de tip rack și le scalează la fabrici AI mari:

Componentă	Descriere
GPU Rubin	Placă video cu 288 GB HBM4
CPU Vera	Procesor central
NVLink 6	Sistem de scalare intra-sistem
ConnectX‑9	Adaptator rețea inteligent
BlueField‑4	Procesor de date
Spectrum‑X	Switch de scalare inter-sisteme cu optică integrată

Groq 3 LPU a fost adăugat ca nou bloc constructiv, care va fi utilizat în implementarea sistemelor mari.

De ce se evidențiază Groq 3 LPU
Principala diferență este arhitectura memoriei. În timp ce majoritatea acceleratorilor folosesc HBM ca memorie de lucru, fiecare Groq 3 LPU conține 500 MB SRAM. Comparație:

Parametru	GPU Rubin (HBM4)	Groq 3 LPU (SRAM)
Capacitate	288 GB	0,5 GB
Banda largă	~22 TB/s	până la 150 TB/s

Pentru sarcinile de inferență sensibile la lățimea de bandă, avantajul SRAM este evident. De aceea Nvidia a inclus Groq 3 în Rubin – pentru a crește viteza de emitere a token-urilor.

Rack-ul Groq 3 LPX
În rack se află 256 de cipuri Groq 3 LPU, ceea ce oferă:

* 128 GB SRAM
* 40 PB/s de lățime totală de bandă
* 640 TB/s de interfață intra-sistem

Vicepreședintele pentru soluții hiper-scalabile, Ian Buck, a numit acest rack un coprocesor pentru Rubin, subliniind rolul său în creșterea performanței decodării la fiecare strat al modelului și token.

Impact asupra sistemelor multi-agent
Buck a menționat că Groq 3 LPX va fi un element cheie pentru viitorul pieței AI – sistemele multi-agent. Când agenții schimbă date direct, nu prin chat‑bot-uri, cerințele de răspuns se modifică: de la 100 tokeni/s până la peste 1 500+ tokeni/s și mai mult.

Concurenți și perspective
În text este menționat un competitor – Cerebras, care utilizează Wafer‑Scale Engine (WSE) cu o SRAM uriașă pentru inferență cu latență scăzută. OpenAI a folosit deja Cerebras în modelele sale avansate datorită latenței avantajoase.

Buck a subliniat și faptul că apariția Groq 3 LPU ar putea reduce dependența de acceleratorul Rubin CPX. În timp ce Nvidia se concentrează pe integrarea rack-ului Groq 3 LPX cu platforma, ambele cipuri sunt destinate să întărească inferența fără a necesita volume mari de memorie GDDR7.

Concluzie:

Noul cip Groq 3 LPU și rack-ul său LPX potențează Vera Rubin în segmentul inferenței cu latență scăzută, deschizând drumul către sisteme AI multi-agent mai rapide și concurând cu jucători precum Cerebras.

Nvidia a lansat cipul Groq 3 LPU, care accelerează inferența modelelor AI până la nivel de tokenuri.

Related news

Google Gemini a acumulat 750 milioane de utilizatori activi lunar, lăsând ChatGPT la doar o distanță mică de lider.

Nothing a lansat versiunea beta a Essential Apps – o platformă pentru crearea de mini‑aplicații cu ajutorul inteligenței artificiale.

Microsoft a explicat de ce sunt blocate conturile VeraCrypt și alte servicii deschise — din cauza neglijenței creatorilor lor.

Aplicația Meta✴ AI a ocupat locul al cincilea în App Store după lansarea Muse Spark

Comentarii (0)

Autentifică-te pentru a comenta

Nvidia a lansat cipul Groq 3 LPU, care accelerează inferența modelelor AI până la nivel de tokenuri.

Related news

Google Gemini a acumulat 750 milioane de utilizatori activi lunar, lăsând ChatGPT la doar o distanță mică de lider.

Nothing a lansat versiunea beta a Essential Apps – o platformă pentru crearea de mini‑aplicații cu ajutorul inteligenței artificiale.

Microsoft a explicat de ce sunt blocate conturile VeraCrypt și alte servicii deschise — din cauza neglijenței creatorilor lor.

Aplicația Meta✴ AI a ocupat locul al cincilea în App Store după lansarea Muse Spark

Autentifică-te pentru a comenta

Nvidia a lansat cipul Groq 3 LPU, care accelerează inferența modelelor AI până la nivel de tokenuri.

Nothing a lansat versiunea beta a Essential Apps – o platformă pentru crearea de mini‑aplicații cu ajutorul inteligenței artificiale.

Aplicația Meta✴ AI a ocupat locul al cincilea în App Store după lansarea Muse Spark