Google a redus de șase ori consumul de memorie al modelelor AI, păstrând acuratețea, datorită algoritmului TurboQuant

Rezumat

Google Research a prezentat un nou mod de comprimare a KV‑cache-ului pentru modelele lingvistice mari – TurboQuant. Algoritmul reduce rezoluția cache-ului la 3 biți (4 biți dacă se adaugă corectarea erorilor), fără a deteriora acuratețea răspunsurilor și fără antrenament suplimentar. Pe acceleratoarele Nvidia H100, TurboQuant a crescut performanța calculului logit-urilor atenției de 8 ori și a redus dimensiunea KV‑cache-ului cu șase ori.

Ce este KV‑cache-ul și de ce contează
* KV‑cache-ul stochează cheile (K) și valorile (V) obținute în timpul calculului mecanismului de atenție.
Acest lucru permite modelului să nu le recalculeze la fiecare pas al generării token-urilor.

* Pe măsură ce fereastra de context crește, cache-ul crește exponențial, ceea ce duce la costuri mari de memorie.

* Metodele tradiționale de cuantizare reduc dimensiunea cache-ului, dar necesită stocarea constantelor de cuantizare (dicționare), similare ZIP/RAR.
Aceste dicționare creează cheltuieli semnificative de overhead.

Cum funcționează TurboQuant
TurboQuant constă din două etape și elimină complet dicționarele.

Etapă	Ce se face	De ce este important
1. PolarQuant	Transformarea vectorilor din coordonate carteziene în polar (rădăcină + unghi). Distribuțiile angulare sunt previzibile și concentrate, așadar nu este necesară o etapă costisitoare de normalizare pentru fiecare bloc. Se obține comprimare de înaltă calitate fără dicționare.
2. Strat de corectare a erorilor pe 1 bit	Se aplică algoritmul cuantificat Johnson‑Lindenstrauss; eroarea reziduală este redusă la un singur bit. Elimină biasul sistematic în calculele atenției cu costuri suplimentare minime.

Rezultate practice
Test | Algoritmi | Rezultate
---|---|---
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: minim 6‑ori comprimare KV‑cache; în sarcinile de „agrafă în coșul cu fân” – fără pierderi de acuratețe. În LongBench – nu mai puțin, uneori și mai bine decât KIVI.
Căutare vectorială (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Chiar și fără antrenament, TurboQuant a depășit concurenții instruiți în calitatea rezultatelor și consumul de memorie.

Concluzii
* TurboQuant oferă comprimare puternică a KV‑cache-ului la 3–4 biți fără pierdere de acuratețe și fără antrenament suplimentar.
* Performanța pe Nvidia H100 a crescut cu 8 ori, iar dimensiunea cache-ului s-a redus cu șase ori.
* Algoritmul funcționează atât pentru modelele lingvistice mari, cât și pentru sarcinile de căutare vectorială, fără ajustări fine.

Astfel, TurboQuant este pregătit pentru utilizarea practică chiar și la sarcini intensive și deschide noi posibilități pentru lucrul eficient cu modelele mari.

Google a redus de șase ori consumul de memorie al modelelor AI, păstrând acuratețea, datorită algoritmului TurboQuant

Related news

Apple‑Car ar putea arăta așa: Ferrari prezintă interiorul mașinii electrice Luce, proiectată de Johnny Aiv.

Vânzările Mortal Kombat 1 au depășit 8 milioane de exemplare, dar recordul jocului precedent încă rămâne inabordabil

Tesla a lansat o campanie împotriva metodelor „înșelătoare” de activare a pilotului automat în regiunile unde utilizarea acestuia este interzisă.

În cinci ani, cererea de memorie, potrivit unui director Dell, va crește cu peste 600 de ori datorită creșterii boom‑ului AI.

Comentarii (0)

Autentifică-te pentru a comenta