Google a redus de șase ori consumul de memorie al modelelor AI, păstrând acuratețea, datorită algoritmului TurboQuant

Google a redus de șase ori consumul de memorie al modelelor AI, păstrând acuratețea, datorită algoritmului TurboQuant

6 hardware

Rezumat

Google Research a prezentat un nou mod de comprimare a KV‑cache-ului pentru modelele lingvistice mari – TurboQuant. Algoritmul reduce rezoluția cache-ului la 3 biți (4 biți dacă se adaugă corectarea erorilor), fără a deteriora acuratețea răspunsurilor și fără antrenament suplimentar. Pe acceleratoarele Nvidia H100, TurboQuant a crescut performanța calculului logit-urilor atenției de 8 ori și a redus dimensiunea KV‑cache-ului cu șase ori.

Ce este KV‑cache-ul și de ce contează
* KV‑cache-ul stochează cheile (K) și valorile (V) obținute în timpul calculului mecanismului de atenție.
Acest lucru permite modelului să nu le recalculeze la fiecare pas al generării token-urilor.

* Pe măsură ce fereastra de context crește, cache-ul crește exponențial, ceea ce duce la costuri mari de memorie.

* Metodele tradiționale de cuantizare reduc dimensiunea cache-ului, dar necesită stocarea constantelor de cuantizare (dicționare), similare ZIP/RAR.
Aceste dicționare creează cheltuieli semnificative de overhead.

Cum funcționează TurboQuant
TurboQuant constă din două etape și elimină complet dicționarele.

EtapăCe se faceDe ce este important
1. PolarQuantTransformarea vectorilor din coordonate carteziene în polar (rădăcină + unghi). Distribuțiile angulare sunt previzibile și concentrate, așadar nu este necesară o etapă costisitoare de normalizare pentru fiecare bloc. Se obține comprimare de înaltă calitate fără dicționare.
2. Strat de corectare a erorilor pe 1 bitSe aplică algoritmul cuantificat Johnson‑Lindenstrauss; eroarea reziduală este redusă la un singur bit. Elimină biasul sistematic în calculele atenției cu costuri suplimentare minime.

Rezultate practice
Test | Algoritmi | Rezultate
---|---|---
LongBench, Needle In A Haystack, ZeroSCROLLS, RULER, L‑Eval (Gemma & Mistral) | TurboQuant vs KIVI | TurboQuant: minim 6‑ori comprimare KV‑cache; în sarcinile de „agrafă în coșul cu fân” – fără pierderi de acuratețe. În LongBench – nu mai puțin, uneori și mai bine decât KIVI.
Căutare vectorială (GloVe) | TurboQuant vs Product Quantization, RabbiQ | Chiar și fără antrenament, TurboQuant a depășit concurenții instruiți în calitatea rezultatelor și consumul de memorie.

Concluzii
* TurboQuant oferă comprimare puternică a KV‑cache-ului la 3–4 biți fără pierdere de acuratețe și fără antrenament suplimentar.
* Performanța pe Nvidia H100 a crescut cu 8 ori, iar dimensiunea cache-ului s-a redus cu șase ori.
* Algoritmul funcționează atât pentru modelele lingvistice mari, cât și pentru sarcinile de căutare vectorială, fără ajustări fine.

Astfel, TurboQuant este pregătit pentru utilizarea practică chiar și la sarcini intensive și deschide noi posibilități pentru lucrul eficient cu modelele mari.

Comentarii (0)

Împărtășește-ți opinia — te rugăm să fii politicos și să rămâi la subiect.

Încă nu există comentarii. Lasă un comentariu și împărtășește-ți opinia!

Pentru a lăsa un comentariu, autentifică-te.

Autentifică-te pentru a comenta