TurboQuant: pet vidikov enega algoritma

Lovsko letalo prebije zvočni zid nad morjem ob sončnem zahodu — metafora za preboj skozi omejitve pomnilnika

§ 01 — AlgoritemKaj pravzaprav naredi TurboQuant

Konec marca 2026 je Googlov raziskovalni oddelek objavil algoritem z imenom TurboQuant. Na prvi pogled suhoparno branje o vektorski kvantizaciji, napisano za ozko skupino raziskovalcev, ki jih razburjajo Betove porazdelitve in Johnson-Lindenstraussove projekcije. Nihče od teh raziskovalcev ni pričakoval, da bo njihov članek v dveh tednih zamajal pomnilniške trge in sprožil razpravo o prihodnosti regulacije umetne inteligence.

TurboQuant deluje v dveh korakih. Najprej naključno zasuka vhodne vektorje, s čimer razprši morebitne ekstremne vrednosti enakomerno po vseh koordinatah. Nato na zasukane vektorje uporabi optimalni stopenjski kvantizer, ki vsak parameter stisne na tri bite namesto šestnajst. Drugi korak je popravek napake: enobitna projekcija po metodi QJL odpravi pristranskost, ki bi sicer pokvarila rezultat pri izračunu pozornosti v modelu.^[1]

Rezultat: šestkrat manjši pomnilniški odtis za predpomnilnik ključev in vrednosti, osemkratni pospešek pri izračunu pozornosti na Nvidiinih H100 čipih, nič ponovnega učenja, nič izgube natančnosti. Natanko nič.^[2]

6×

manj pomnilnika

8×

hitrejši izračun pozornosti

3,5

bitov na parameter

0 %

izguba natančnosti

Internet je algoritem nemudoma primerjal s fiktivnim stiskanjem iz televizijske serije Silicon Valley. Na družbenih omrežjih so ga oklicali za Pied Piperja, po izmišljenem začetnem podjetju iz omenjene serije, ki je razvilo prelomen algoritem za stiskanje podatkov in se potem na zapleten način spopadalo z Googlu podobnim velikanom.^[3] Šala je bila zabavna. Posledice niso.

§ 02 — Hitrost uveljavitveOd članka do kode v tednu dni

Google izvorne kode ni objavil. Objavil je samo članek. In ravno ta del zgodbe večina komentatorjev zgreši.

V tednu dni po objavi so neodvisni razvijalci prebrali matematiko, usmerili orodja za programiranje z umetno inteligenco na članek in od začetka zgradili delujoče izvedbe. Eden izmed njih je napisal izvedbo v ogrodju PyTorch z lastnim jedrom za Triton, jo preizkusil na modelu Gemma 3 z Nvidiino grafično kartico RTX 4090 in dobil znak za znakom identične rezultate pri dveh bitih na parameter.^[4] Drugi razvijalec je algoritem pognal na Applovem siliciju prek ogrodja MLX na modelu s 35 milijardami parametrov. Popoln rezultat pri vseh ravneh kvantizacije.

Eden izmed graditeljev je poročal, da je s pomočjo modela GPT-5.4 celotno izvedbo za MLX dokončal v 25 minutah.^[5]

Pot od akademskega odkritja do uporabne kode je nekoč trajala mesece. Danes traja dneve. In prav to krajšanje je učinek, ki ga večina komentatorjev spregleda.

Pred tremi leti bi tak članek na arXivu obležal več mesecev, preden bi ga kdo pretvoril v delujočo kodo. Danes umetna inteligenca prebere članek, razume matematiko in napiše kodo. Pospešek se dogaja na dveh ravneh hkrati. Prvi je v samem algoritmu. Drugi je v hitrosti, s katero algoritem preide v prakso. In ta druga hitrost se sama eksponentno krajša.

§ 03 — EkonomijaJevonsov paradoks udari znova

Na dan objave so delnice pomnilniških proizvajalcev Micron in SanDisk padle za pet do osem odstotkov.^[6] Razmislek vlagateljev je bil preprost: če model porabi šestkrat manj pomnilnika, potem potrebuješ šestkrat manj čipov. Prodaj vse.

V dveh tednih so se delnice vrnile. In tu nastopi William Stanley Jevons.

Leta 1865 je britanski ekonomist opazil nekaj nenavadnega. Učinkovitejši parni stroji so porabo premoga povečali, ne zmanjšali. Cenejše obratovanje je pomenilo, da so si stroje privoščili vsi, ne samo največje tovarne. Poraba premoga je med letoma 1865 in 1900 narasla za trikrat. Protiintuitivni učinek, ki se je po avtorju uveljavil kot Jevonsov paradoks, se ponavlja z zanesljivostjo fizikalnega zakona. In ravno takšen scenarij se dogaja pred našimi očmi.

Učinkovitejši parni stroji niso zmanjšali porabe premoga — povečali so jo. Poraba je med letoma 1865 in 1900 narasla za trikrat. Nižji strošek na enoto je pomenil več uporabnikov, ne manj porabe. Isti mehanizem se zdaj ponavlja pri računski zmogljivosti.

Analitik investicijske banke Mizuho je ohranil oceno nakupa za obe delnici in zapisal, da bo TurboQuant omogočil večje modele, hitrejše izvajanje in boljšo ekonomiko žetonov, kar bo spodbudilo več porabe.^[7] Direktor Cloudflara Matthew Prince je algoritem imenoval Googlov DeepSeek trenutek. Enak vzorec kot januarja 2025, ko je DeepSeek sprožil panično razprodajo Nvidijinih delnic, ki ji je sledil eden najočitnejših nakupnih signalov leta.

Vzorec se ponavlja: večja učinkovitost vodi k nižji ceni na enoto, nižja cena pripelje več uporabnikov, več uporabnikov prinese večjo skupno porabo. Premog, gorivo, računska zmogljivost, pomnilnik. Isti mehanizem, isti rezultat, že 160 let zapored.

Vprašanje torej ni, koliko pomnilnika porabi posamezna poizvedba. Vprašanje je, koliko poizvedb bo. In odgovor je vselej enak: več, kot si kdorkoli predstavlja.

§ 04 — Širjenje dostopaModel na telefonu

Zmogljiv jezikovni model je do danes zahteval podatkovni center. Strojno opremo za milijone evrov. Ekipo za vzdrževanje. Elektriko za majhno mesto. Temu je konec.

Pri treh bitih na parameter model s 27 milijardami parametrov porabi manj kot 12 gigabajtov pomnilnika. Toliko najde v sebi naslednji iPhone. Toliko najde v sebi prenosnik za 500 evrov. Naprava v žepu prevzame nalogo, ki je bila prej rezervirana za podatkovni center. Sam sem pred dvema tednoma na lokalni napravi pognal model, ki bi pred letom dni zahteval oblak. Razlika v izkušnji je osupljiva.

Prehod od umetne inteligence kot storitve v oblaku k umetni inteligenci kot osebni lastnini je civilizacijski premik. Oblačna storitev pomeni, da nekdo drug hrani tvoje podatke, beleži tvoje poizvedbe, oblikuje tvoje rezultate. Lokalni model pomeni, da vse ostane na tvoji napravi. Brez omrežja. Brez beleženja. Brez posrednika.

Prehod z najete storitve na lastno napravo je razlika med najemom in lastnino. Za državljane osvoboditev. Za regulatorje težava.

§ 05 — RegulativaUredba o umetni inteligenci ima strukturno luknjo

Uredba o umetni inteligenci temelji na predpostavki, da zmogljive modele poganjajo ponudniki v oblaku. Ponudnike je mogoče identificirati in registrirati. Mogoče jih je nadzorovati, po potrebi tudi kaznovati. Členi 8 do 15 nalagajo obveznosti za visoko tvegane sisteme: beleženje, sledljivost, človeški nadzor. Vse to deluje, dokler model teče na strežniku, ki ga upravlja znano podjetje v znani jurisdikciji.

Ko model teče lokalno na napravi brez omrežne povezave, se ta arhitektura nadzora sesuje. Ni registra. Ni beleženja. Ni organa, ki bi sploh vedel, da model obstaja. Po mojem mnenju gre za temeljni strukturni problem uredbe, ki presega raven izvedbene podrobnosti.

In tu nastopi geopolitični vidik. Kitajska ima po ocenah približno desetkrat manj računske zmogljivosti za učenje modelov kot Zahod.^[8] A algoritmična učinkovitost je asimetrično orožje. TurboQuant pokaže, da en sam članek na arXivu izniči milijardne naložbe v strojno opremo. Zmagaš z boljšo rabo razpoložljivih čipov, ne z nakupom dodatnih. In ravno na tem področju je Kitajska že pokazala, da zna presenetiti.

Evropski regulatorji se morajo soočiti z neprijetnim dejstvom: uredba, ki je bila zasnovana za svet oblačnih storitev, vstopa v svet lokalnih naprav. Uredba o umetni inteligenci sicer razvršča sisteme po tveganju ne glede na to, kje tečejo.^[9] Toda izvedba te razčlenitve pri modelu, ki teče brez omrežja na napravi v žepu, je praktično neizvedljiva. Bruseljski učinek deluje, dokler lahko identificiraš, koga nadzoruješ. Ko model postane osebna lastnina, ta identifikacija odpove. O tem v Bruslju zaenkrat nihče resno ne govori.

§ 06 — PospešekSkupni učinek posameznih skokov

TurboQuant sam po sebi revolucija ni. To priznavajo tudi avtorji. Velik del učinkovitostnih pridobitev je bil v obliki 8-bitne in 4-bitne kvantizacije v praksi že pred njim uveljavljen.^[10] Vrednost članka leži v tem, da premakne mejo bližje informacijsko-teoretičnemu optimumu, torej meji, ki jo postavlja fizika in ne inženiring.

Posamezni skoki pa se seštevajo. TurboQuant ni edini. V istem obdobju smo videli izboljšave pri učenju z manj podatki, pametnejše upravljanje kontekstnega okna, bolj ekonomično zasnovo mehanizma pozornosti (gre za del modela, ki izračuna, kateri deli vhodnega besedila so pomembni za trenutni odgovor). Vsak skok je zase postopen. Skupaj tvorijo eksponento. Sam to opazujem pri delu z modeli na dnevni ravni.

Stokratni letni pospešek zmogljivosti se kaže kot merljiv seštevek algoritmičnih skokov, ki se dogajajo zdaj.

Ravno TurboQuant ilustrira, zakaj ta seštevek deluje. Sam obstoj algoritma ne zadošča. Odločilno je, kako hitro preide v prakso. Pred petimi leti je od članka do izvedbe minilo pol leta. Danes traja teden dni. Čez leto dni bo morda trajalo ure. Krajšanje samega cikla pomeni, da se učinki ne le seštevajo, ampak se seštevajo hitreje. Pred letom dni si skoraj nihče ne bi upal napovedati, da bo mogoče Googlov raziskovalni presežek replicirati v 25 minutah z enim samim pozivom programu.

Za vsakogar, ki načrtuje infrastrukturo, gradi produkt ali piše zakonodajo, to pomeni eno stvar: predpostavke, na katerih gradiš danes, bodo čez šest mesecev zastarele. Ne čez pet let. Čez šest mesecev. Organizacija, ki tega ne vgradi v svoje odločanje, bo zaostala. Ne morda. Zagotovo.

En algoritem. Pet vidikov istega pospeška. Nič od tega ne čaka, da se pripravimo.

Viri

Zandieh, A., Daliri, M., Hadian, M., Mirrokni, V. (2025). TurboQuant: Online Vector Quantization with Near-optimal Distortion Rate. arXiv:2504.19874. Predstavljeno na ICLR 2026.
Google Research Blog (marec 2026). TurboQuant: Redefining AI efficiency with extreme compression. research.google
TechCrunch (25. marec 2026). Google unveils TurboQuant — and yes, the internet is calling it Pied Piper. techcrunch.com
Stark Insider (marec 2026). Google's TurboQuant: The Unsexy AI Breakthrough Worth Watching. starkinsider.com
TurboQuant.net (april 2026). Neodvisna analiza TurboQuanta. turboquant.net
Motley Fool (4. april 2026). What Is the Jevons Paradox and What Does It Mean for Micron and Sandisk? fool.com
InvestorPlace (april 2026). What TurboQuant Actually Means for AI Memory Stocks. investorplace.com
Moonshots Podcast (april 2026). Peter Diamandis, Alex Weizer Gross, Dave, Salem. Epizoda o Stanford AI Index 2026 in TurboQuantu.
Uredba (EU) 2024/1689 o umetni inteligenci (AI Act), členi 6, 8–15.
TurboQuant.net (april 2026). Expert view: What is likely already deployed. turboquant.net