← klemen.ai AI v podjetju · 22. april 2026

RAG ali fine-tuning — zemljevid, ki ga večina spregleda

Podjetja sistematično izberejo napačno orodje: za znanje posežejo po fine-tuningu, za glas po RAG-u. Oba izbora sta nazaj obrnjena in oba stanejo več, kot bi morala.

Klemen Kraigher Mišič · pravnik in AI svetovalec · čas branja ~25 min

Razpotje med dvema cestama kot prispodoba izbire med RAG-om in fine-tuningom

V petih točkah

Če bereš samo to, vzemi s seboj naslednje.

Znanje gre v RAG, glas gre v fine-tuning. Večina podjetij izbere narobe in zapravi dvakrat — najprej denar, potem še čas, da spozna napako.
Fine-tuning ima več obrazov. CPT uči jezik in domeno, SFT obliko odgovora, DPO preference. Vsak sloj drugače premika uteži modela in prinaša drugačna tveganja.
V produkciji je redko »ali — ali«. Resen sistem je skoraj vedno hibrid: fino prilagojen generator, ki bere iz dinamičnega RAG-a. Čisti pristopi so akademska risba.
Evaluacija je slepa pega. Brez spodobnega merilnega okvira ne veš, ali je fino prilagojeni model boljši od osnovnega ali samo drugačen. Večina podjetij nima niti preproste kontrolne skupine.
Regulatorna plast je spregledana. AI Act te po učenju modela z velikim korpusom lahko premakne iz uvajalca v ponudnika. GDPR postavi vprašanje: kako izbrisati podatek, ki je zmešan v uteži?

§ 01 — UvodKdaj znanje, kdaj glas

Vsakič, ko podjetje pride s ponudbo za LLM projekt, se razgovor vrti okrog iste pomote. Stranka pravi: naš model naj pozna naše dokumente — naučimo ga torej na naših podatkih. Ko nekaj minut kasneje pogovor zdrsne na ton komunikacije, isti sogovornik reče: za to bomo pa uporabili RAG, naložili bomo nekaj primerov e-pošte. Obrat je tako natančen, da ga je skoraj lepo gledati. V obeh primerih je stranka izbrala orodje, ki ga bo najbolj bolelo plačati.

Razlog je preprost. Velikanski jezikovni modeli so v javnosti predstavljeni kot nekakšne »glave«, ki jih učimo kot študente. V tej podobi je fine-tuning isto kot branje knjige — model si zapomni vsebino. V resnici fine-tuning bolj spominja na lektorat sloga: premika način, kako model oblikuje odgovor, pri čemer se sama vsebina komaj kaj zapomni in zelo rada razpade v halucinacijo. Znanje se v LLM-jih najbolj elegantno seli prek RAG-a, ker ostane zunaj uteži in ga lahko kadar koli zamenjamo.

Fine-tuning ni orodje za vpihovanje podatkov v model. Je orodje za oblikovanje načina, kako model govori.

Drugi razlog za razširjeno zmedo je generacijska lenoba. Prvi članki o RAG-u iz leta 2020^[1] so bili napisani v času, ko so bili modeli majhni in kontekstna okna kratka. Danes imajo vodilni modeli kontekstna okna, ki požrejo srednje dolg roman, kar je marsikoga prepričalo, da RAG-a ne rabimo več. Po drugi strani pa Nvidia in drugi prodajalci strojne opreme ves čas potiskajo zgodbo »fine-tunaj svoj lastni model«, ker v tej zgodbi nekdo kupi GPU-je. Obe zgodbi sta delno resnični, obe vodita v napačno odločitev, če ju vzameš dobesedno.

Ta zemljevid je grajen iz prakse, ne iz dokumentacije. Na eni strani stoji DPOPilot, GDPR svetovalec, kjer RAG prenaša dnevno spreminjajočo se sodno prakso iz devetindvajsetih jurisdikcij. Na drugi strani pravni jezikovni model, kjer je fine-tuning (natančneje CPT in SFT) edini način, da se model nauči argumentirati v slovenski pravni tradiciji. Dva sistema, obrnjeni izbiri, oba v produkciji. Zakaj je ta asimetrija pravilna — in kdaj se začne kvariti v hibridu — je osrednja tema tega članka.

V nadaljevanju najprej razstavim oba pristopa do ravni, kjer se pravzaprav nahaja razlika, potem pa postavim preprost kompas z dvema osema, po katerem se da vsak produkcijski primer umestiti v enega od štirih kvadrantov. Zadnja tretjina članka obravnava stroške, evaluacijo in regulatorno plast, ki so pri odločitvi običajno spregledani in potem drago zahtevajo svoj delež.

§ 02 — AnatomijaKaj RAG dejansko počne

RAG (retrieval-augmented generation) je kolosalno preprosta arhitektura, ki se sama po sebi obnaša kot uredniški pomočnik z zelo dobrim kazalom. Ko pride vprašanje, ga sistem najprej ne pošlje v model. Namesto tega ga pretvori v vektor — številsko predstavitev pomena — in s tem vektorjem poišče najbolj podobne odseke iz interne baze dokumentov. Nekaj najboljših kandidatov gre skozi ponovno razvrstitev (rerank), najboljši trije ali štirje pa se skupaj z izvirnim vprašanjem prilepijo v poziv, ki ga model končno prebere in na podlagi priloženega konteksta sestavi odgovor.

Bistvena posledica te arhitekture je, da model ostane nedotaknjen. Njegove uteži se ne premikajo, njegova splošna inteligenca ne razpada. Znanje živi zunaj modela, v vektorski bazi, kamor lahko danes naložimo nov dokument in ga jutri odstranimo. Model sam deluje kot bralec, ki na podlagi danega konteksta oblikuje odgovor. Prav v tej ločnici — znanje zunaj, sklepanje znotraj — leži največja pragmatična vrednost RAG-a.

Graf 1 — Anatomija

Pot vprašanja skozi RAG

Vse korake med vprašanjem in odgovorom je mogoče nadzorovati, meriti in zamenjati. Zato je RAG v produkciji preprosto popravljiv, fino prilagojeni model pa praviloma ni.

Kje RAG sveti

Prva prednost je sledljivost. Vsak stavek v odgovoru je mogoče opremiti s sklicem na izvirni odsek dokumenta — uporabnik vidi, od kod je model potegnil trditev. Brez te lastnosti pravni, zdravstveni, finančni in drugi regulirani sistemi nimajo kaj iskati v produkciji, ker nihče ne sme odgovora sprejeti brez sklica.

Druga prednost je dinamičnost. Pravna, medicinska in finančna znanja se spreminjajo dnevno. V RAG-u odpreš vektorsko bazo, dodaš nov dokument, odstraniš zastarelega. V modelu, ki je fino prilagojen na stari korpus, moraš za isti učinek pognati nov krog učenja, preveriti, da ni izgubil drugih sposobnosti, in zamenjati produkcijsko različico. En postopek traja minute, drugi dneve.

Tretja prednost je upravljanje pravic. Vektorska baza lahko ve, kdo sme videti kateri dokument. Filter se postavi pred iskanje, neprave odseke model sploh ne vidi. V fino prilagojenem modelu so vse informacije razmazane po utežih in noben filter ne more zanesljivo povedati, katera utež hrani kateri podatek.

Kje RAG odpove

RAG je slab, kadar odgovor zahteva globoko sklepanje čez več dokumentov. Če moraš povezati tri odseke iz treh različnih vsebin in iz njih sestaviti novo trditev, retriever to redko vrne kot en sam zadetek. Model bere ločene koščke in med njimi pogosto ne zgradi pravih povezav. Agentni pristopi z zaporednimi iskanji to delno rešijo, sprejemljivo pa je še vedno le za del primerov.

RAG je tudi slab, kadar je znanje domene pravzaprav jezik sam. Pravni, matematični in kodirni jezik nimajo jasne delitve na »znanje« in »glas« — stil argumentacije je znanje. Za take primere fino prilagojen model ali celo CPT (continued pre-training) na domenskem korpusu prinese več, kot bi ga kdaj prinesla najboljša vektorska baza. O tem v naslednjem razdelku.

§ 03 — PlastiFine-tuning ima več obrazov

Najpogostejša napaka v pogovorih o fine-tuningu je, da se o njem govori v ednini. V resnici ima vsaj tri različne postopke, ki se med seboj po globini posega v model močno razlikujejo. Vsak postopek premika uteži drugače, stane drugače, uniči drugače in tudi koristi drugače. Če podjetje pride s »potrebujemo fine-tuning«, je prvi pameten odgovor vprašanje, kateri.

CPT — nadaljevano začetno učenje

Continued pre-training pomeni, da vzameš temeljni model in nadaljuješ njegovo začetno učenje na novem, običajno zelo velikem domenskem korpusu. Model ob tem ne prejme ne navodil ne primerov dialogov — bere samo neobdelano besedilo. Uči se jezika, terminologije, ritma in logike domene. Za pravni model to pomeni desetine milijonov žetonov zakonodaje, sodne prakse, ločenih mnenj in doktrine. Postopek je po računski zahtevnosti najbližje začetnemu učenju samemu, le v manjši količini. Premika uteži globoko in v velikem obsegu.

Zato je tudi najbolj nevaren. Če korpus ni skrbno sestavljen, se model lahko začne vesti kot domenski idiot savant — briljira v dokumentih, ki jih je videl, in hkrati izgubi sposobnost, da bi uporabniku preprosto pojasnil, kaj pomeni kakšna besedna zveza. Pojav se v literaturi imenuje catastrophic forgetting^[2] in je prva stvar, ki jo mora evaluacijski okvir pri CPT-ju loviti.

SFT — učenje oblike odgovora

Supervised fine-tuning je korak, kjer modelu pokažeš, kako naj odgovarja. Vhodni material so pari navodilo-odgovor, tipično na ravni nekaj tisoč do nekaj deset tisoč primerov. Model se nauči, kakšno dolžino, strukturo, ton in format odgovora uporabnik pričakuje. Praktično vsi pogovorno naravnani modeli, ki so javno dostopni, so za tem korakom postavljeni.

SFT je bistveno cenejši od CPT-ja, ker je količina podatkov manjša in ker običajno uporablja LoRA (low-rank adaptation) — tehniko, kjer se ne premikajo vse uteži, ampak se modelu dodajo tanki adapterji, ki samo usmerjajo njegovo vedenje. Tveganje poškodovanja osnovne inteligence modela je s tem veliko manjše, a še vedno ne nič. Pri preozkem naboru primerov model zna prevzeti vrzeli in jih ponavljati, tudi kadar ne bi smel.

DPO in RLHF — učenje preferenc

Zadnja plast uči model, kaj je boljši odgovor. Podatki so pari odgovorov z oznako, kateri je pravilnejši. Model se ne uči več oblike, ampak preferenc — v kateri smeri odgovora naj se nagiba, kadar je več možnosti. RLHF (reinforcement learning from human feedback) to dela z okrepljenim učenjem in posebnim modelom za oceno, DPO (direct preference optimization)^[3] pa obide dodatni model in to znižanje zahtevnosti plača s svojo stabilnostjo. Za pridigarja preferenčnih pristopov — DPO je današnja privzeta izbira za srednje velike projekte, RLHF je rezerviran za ekipe, ki imajo dovolj ljudi za čistenje podatkov in dovolj denarja za računanje.

Graf 2 — Plasti

Kaj vsak sloj premika in koliko stane

LoRA in QLoRA sta orodji, ki znižata invazivnost posegov na vseh ravneh nad temeljnim modelom. Ne učimo vseh uteži, ampak dodamo tanke adapterje, ki jih je mogoče kadar koli sneti.

Kaj fine-tuning NI

V nobeni od treh plasti se model ne nauči novih dejstev na način, kot bi si ga človek predstavljal. Fine-tuning ne shrani »ta zakon pravi tole«, v smislu strogo preverljive trditve. Vpliva na verjetnosti, s katerimi model izbira naslednji žeton, in po dovolj učenja na dovolj primerih dobimo učinek, ki spominja na znanje. Uporabnik reče »kakšna je kazen za to« in model odgovori nekaj, kar je videti pravilno, a brez zanesljivega sklica.

Zaradi te pomanjkljivosti je fine-tuning za vnos dinamičnega faktičnega znanja slaba izbira. Model ne pozna datuma, v katerem je bil dokument zadnjič posodobljen. Ne zna povedati, od kod je vzel trditev. Čim gre znanje iz modela v produkcijo brez sklicev na izvir, začne produkt pokati, in to običajno pri strankah, ne v testu.

§ 04 — OkvirOdločitveni zemljevid v dveh oseh

Zdaj, ko imamo oba pristopa razstavljena, je mogoče postaviti preprost odločitveni okvir. Postavimo dve osi, ki zajameta skoraj vse, kar v praksi vpliva na odločitev. Vodoravna os meri, kako dinamično je znanje domene — ali se tisto, kar mora model vedeti, spreminja dnevno ali na več let. Navpična os meri, kako specifičen je glas domene — ali je dovolj splošen model, ki bere v slogu vseh, ali potrebuješ model, ki govori kot strokovnjak tvoje panoge.

Graf 3 — Kompas

Matrika odločitve: znanje krat glas

Spodnji levi kvadrant v praksi skoraj ne obstaja — za splošne naloge že temeljni model pokrije potrebo. Težišče poslovnih sistemov je v zgornjih dveh kvadrantih. Hibrid je najpogostejši.

Večino zadreg pri izbiri pristopa pripeljejo v eno preprosto vprašanje — v kateri kvadrant pade konkreten primer. Pogovor, ki traja dve uri, se s postavitvijo osi običajno zbije na deset minut. Včasih se pokaže, da sogovornik sploh ne potrebuje LLM-ja — ampak iskalnik. Včasih pa, da je projekt, ki naj bi bil »samo RAG«, v resnici klicanje po hibridu in dodatne mesece razvoja.

Pet vprašanj, ki razbijejo zmedo

Ko stranka ali ekipa ne ve, kaj hočejo, postavim v zaporedju naslednja vprašanja. Odgovori zelo hitro pokažejo, v katerem kvadrantu nastane projekt in katere plasti fine-tuninga so morda smiselne.

Kako hitro se znanje spreminja?

Dnevno, tedensko, mesečno, letno? Če odgovor pade v prvih treh kategorijah, je fine-tuning za prenos znanja odpisan. Vsaka sprememba pomeni nov krog učenja, testiranja in objave. Za dnevne posodobitve je RAG edina odgovorna izbira.
Ali moraš znati pokazati, od kod je trditev?

V reguliranih panogah je sklicevanje obvezno. Brez sklicevanja so odgovori v pravu, medicini in financah uporabni le kot orientacija, ne kot produkt. Fino prilagojen model zelo težko pokaže sklic. RAG ga pokaže brez truda.
Je jezik domene sam po sebi znanje?

V pravu je stil argumentacije del vsebine. V matematičnem razlagalniku je način izpeljave del odgovora. V teh primerih RAG vrne relevantne odseke, a model jih ne zna povezati v pravilno strukturo. Tukaj je CPT ali SFT na domenskem korpusu običajno nujen.
Koliko poizvedb bo sistem prejel?

RAG povzroča strošek za vsako poizvedbo (klic embedderja, poizvedba v vektorski bazi, rerank, sestavljanje konteksta). Fine-tuning ima velik začetni strošek in nato poceni sklepanje. Pri velikem obsegu se začne razlika med pristopoma seštevati.
Kakšen je regulatorni kontekst?

Če v sistem tečejo osebni podatki, je RAG bistveno lažje uskladljiv z GDPR-jem — odstranitev dokumenta zadošča za izvršitev pravice do izbrisa. Fino prilagojeni model je v tem pogledu drag in tvegan. V kontekstu AI Acta pa fine-tuning lahko celo spremeni vlogo upravljavca sistema, o čemer podrobneje v § 08.

§ 05 — HibridKjer se dogaja resnično delo

Diagram iz prejšnjega razdelka je uporaben za odločanje, a v produkciji skoraj nikoli ne ostane pri čistem izboru. Resni sistemi so hibridi — fino prilagojen generator bere iz dinamičnega RAG-a, oba koraka pa sta v proizvodnji prepleteni do te mere, da ju uporabnik kot ločena sploh ne vidi več. Štiri ponavljajoče se arhitekturne sheme pokrivajo večino resnih primerov.

Graf 4 — Vzorci

Štirje hibridni vzorci v praksi

Vzorec B je v praksi najpogostejši in tudi najbolj razumen začetek. Vzorec C doda robustnost, kadar retriever pogosto vrača mešan kontekst. Vzorec D uporabljajo agentni sistemi, kjer LLM sam izbira med orodji.

Kaj vsak vzorec reši

Vzorec A nastopi, kadar je samo iskanje težko. Generični embedderi pravno terminologijo pogosto zgrešijo — »zakoniti interes« in »zakonsko pooblastilo« se v splošnem modelu znajdeta preblizu. Fino prilagojen embedder na pravnem korpusu^[4] te razdalje zravna in iskanje postane zadetek namesto približka. Generator ostane nedotaknjen.

Vzorec B je klasika. Model se nauči, kako zveni naša panoga, kaj je pravi ton svetovanja, katere strukture odgovorov uporabnik pričakuje. Znanje pa živi v vektorski bazi, kjer ga upravljajo uredniki domene. Tako dobimo sistem, ki zveni kot naš strokovnjak in se opira na najsvežejše vire.

Vzorec C je odgovor na eno od največjih bolečin RAG-a — kadar retriever vrne tri relevantne odseke in sedem popolnoma nerelevantnih, se standardni model nagiba, da v odgovor vgradi tudi nepotrebne koščke. RAFT^[5] je učenje modela, da ga motilci v kontekstu ne vznemirijo — med učenjem dobi primere, kjer je med pravim virom vstavljen tudi odvečen šum, in nauči se ga zavreči.

Vzorec D je standardni agentni pristop. Orkestrator je model, fino prilagojen tako, da zna izbirati med orodji in jih klicati s pravilnim zaporedjem parametrov. RAG je le ena od komponent — kar se zdi kot RAG sistem, je pogosto dejansko agent z RAG-om kot enim od orodij.

Kako ti vzorci živijo v resničnih produktih

GitHub Copilot^[6] je hibrid vzorca B — fino prilagojen generator kode, ki bere odprte datoteke projekta kot kontekst. Harvey AI, pravni pomočnik za velike odvetniške družbe, kombinira ozko usmerjen generator s kakovostnim RAG-om čez sodno prakso. Replit Ghostwriter deluje podobno kot Copilot, z dodatnim FT slojem za razlagalni ton. Na drugi strani Bloomberg GPT predstavlja ekstrem — CPT na finančnem korpusu od začetka, kar je po objavi rezultatov zbudilo vrsto dvomov o smiselnosti takega pristopa za ekipe, ki niso banke s neomejenim proračunom.

V produkciji se vprašanje izbire spremeni v vprašanje kombinacije. Katere plasti zlepiti skupaj in v katerem vrstnem redu jih postaviti pred uporabnika.

§ 06 — StroškiRačunica, ki jo redko kdo prešteje do konca

Stroškovna primerjava RAG-a in fine-tuninga v pogovorih skoraj vedno obvisi na eni številki — koliko stane učenje modela. To je slabo vprašanje, ker prezre strukturo stroškov, ki se med pristopoma razlikuje globoko in napačna izbira se začne poznati šele mesece po zagonu.

Dve strukturi stroškov

RAG ima razmeroma nizke fiksne stroške in stabilne ponavljajoče. Za vsako poizvedbo se plača klic embedderja, poizvedba po vektorski bazi, morebitni rerank in klic generatorja. Ker so vsi koraki zaračunani na klic ali na žeton, stroški rastejo linearno z uporabo. Nad določenim obsegom postane RAG infrastrukturno vprašanje — potrebuješ robustnejšo vektorsko bazo, večjo embedding zmogljivost, rezervni generator. V manjšem in srednjem obsegu pa lahko celoten sistem ostaja skorajda doma narejen.

Fine-tuning ima nasprotno strukturo — visoke začetne stroške in nizke ponavljajoče. Učenje modela je drago, ker zahteva GPU ure, pripravo korpusa in evaluacijo. Ko je model enkrat naučen, je sklepanje dokaj poceni, pogosto še cenejše kot seštevek RAG klicev. Zato tudi nastane točka preloma — pri dovolj velikem obsegu poizvedb se začetni strošek fine-tuninga amortizira in sistem postane cenejši na dolgi rok.

Graf 5 — Točka preloma

Skupni stroški po obsegu uporabe

Graf je konceptualen. Prava lega točke preloma je odvisna od domene, kakovosti retrieverja in izbire generatorja. V nekaterih sistemih je tako visoka, da je projekt nikoli ne doseže.

Nevidni stroški fine-tuninga

Pod številko za GPU ure se skrivajo tri vrste stroškov, ki jih računovodski pregled redko ujame. Prvi je že omenjeni catastrophic forgetting. Model med CPT-jem in močnim SFT-jem pogosto izgubi del splošne sposobnosti — postane nekoliko slabši pri pogovoru, ki ni strogo domenski. Če evaluacija meri samo domensko nalogo, izguba ostane nevidna do prve prijave uporabnika, ki pravi, da je model »nenavadno nerazumen v stvareh, ki nimajo zveze z našim področjem«.

Graf 6 — Forgetting

Kaj se po FT-ju dogaja s splošnimi sposobnostmi

Graf je ilustrativen. Fino prilagojen model v tem primeru zmaga pri domenski nalogi, a jo plača s padcem na vseh drugih kategorijah. Dober evaluacijski nabor lovi oba učinka hkrati.

Drugi nevidni strošek je posodabljanje. Ko se domensko znanje spremeni, fino prilagojenega modela ni mogoče »popraviti« hitro — potreben je nov krog učenja na dopolnjenem korpusu in nova evaluacija. Čas med spremembo sveta in odrazom v modelu se meri v tednih, ne v urah. V panogah z dnevnimi spremembami to pomeni, da je model po definiciji vedno nekoliko zastarel. Pri RAG-u je posodobitev enostavna zamenjava dokumenta.

Tretji strošek je dolžinski. Fino prilagojen model je artefakt določenega trenutka in določenega korpusa. Po šestih mesecih razvoja se lahko pokaže, da je izhodiščni temeljni model medtem doživel novo generacijo, ki je močnejša od tvojega fino prilagojenega. Odločitev o nadgradnji ni trivialna — začneš znova od temeljev, ali ostaneš pri zastareli osnovi s svojimi prilagoditvami. V pravi hibridni arhitekturi je izmenjava temeljnega modela bistveno preprostejša, ker del »glasu« prevzamejo LoRA adapterji, ki jih je mogoče prenesti na novo osnovo.

Fine-tuning plačaš trikrat — enkrat, ko ga narediš, drugič, ko ga moraš posodobiti, in tretjič, ko prva nova generacija temeljnega modela razvrednoti tvoj trud.

§ 07 — EvaluacijaSlepa pega, ki povzroči največjo škodo

Večina resnih težav pri fine-tuningu se ne pokaže med učenjem, ampak po njem. Krivulja izgube med učenjem pada tako lepo, da daje vtis uspeha, pravi test pa nastopi, ko model sreča uporabnika. Enako velja za RAG — metrika uspešnosti iskanja je videti odlična, uporabniški odzivi pa ne. Vzrok za obe težavi je isti — slab evaluacijski okvir. V praksi ga ima manj kot polovica projektov, kar se pokaže najkasneje pol leta po objavi.

Tri ravni presoje

Zdrav evaluacijski okvir ima tri plasti, od spodaj navzgor. Vsaka plast pove drugačno resnico in nobena plast ni nadomestek za drugo.

Graf 7 — Piramida

Tri plasti evaluacije LLM sistema

Zlati nabor je množica skrbno pripravljenih vprašanj z referenčnimi odgovori ali rubrikami za presojo. LLM kot sodnik je avtomatska ocena odgovorov z drugim modelom po vnaprej postavljenih merilih.

Pasti pri fine-tuningu

Najpogostejša past je prekomerno prileganje (overfitting) na majhen učni nabor. Model postane odličen v dobesedno istih primerih, kakršnih je videl med učenjem, pri malce drugačnih formulacijah pa razpade. Past se skriva za lepo padajočo krivuljo izgube. Brez ločenega validacijskega nabora, ki ga model med učenjem ni videl, tega učinka ne ujameš.

Druga past je okužba med učnim in testnim naborom. Ko imaš omejeno količino domenskega gradiva in hočeš čim več uporabiti za učenje, se hitro zgodi, da isto besedilo v nekoliko drugačni obliki konča v obeh množicah. Model na testu doseže visoke številke, ki pa so blizu prepisa. Produkcija potem prinese drugačno sliko.

Tretja past, ki sem jo omenil že pri stroških, je izguba splošnih sposobnosti. Evaluacija, ki meri samo domensko nalogo, te izgube ne vidi. Zato je v zdravem okviru obvezen tudi del splošnih meril — MMLU ali enakovrstni nabor — ki preveri, da model ni postal idiot savant svoje domene.

Pasti pri RAG-u

Pri RAG-u je najbolj zavajajoča metrika uspešnost iskanja sama. Retriever lahko z visokim recall@k vrača odseke, ki so sorodni, vendar za konkretno vprašanje ne nosijo odgovora. Generator nato zgradi odgovor, ki je po videzu smiseln, po vsebini pa pomanjkljiv. Brez ročnega pregleda ali LLM kot sodnika čez celoten odgovor te razlike ne zaznaš.

Druga RAG past je zavajajoča stabilnost. Zlati nabor, pripravljen ob začetku razvoja, ostaja enak mesece, medtem ko se vektorska baza dnevno polni z novimi dokumenti. Model, ki je še pred pol leta dajal dobre odgovore, jih zaradi spremenjene kakovosti iskanja ne daje več, a ker ponovljenega testa nihče ni pognal, tega nihče ne ve. Pomaga redna rotacija zlatih naborov in beleženje odzivov uporabnikov.

Projekt brez evaluacije ni fine-tuning ali RAG projekt. Je optimistični domnevek, ki bo rok za streznitev izročil stranki.

§ 08 — PravoRegulatorna plast, ki jo tehnične ekipe sistematično spregledajo

Med razvojem LLM sistema pravno vprašanje običajno pride zadnje. Inženirska ekipa zgradi arhitekturo, izbere pristop, naredi prvo različico — in šele potem pride do mize pravnik, ki pokaže, da izbira ni bila samo tehnična. Izbira med RAG-om in fine-tuningom ima v EU dve pomembni regulatorni plasti, ki odločilno vplivata na obveznosti podjetja — Akt o umetni inteligenci^[7] in Splošna uredba o varstvu podatkov.

Kdaj fine-tuning naredi iz tebe ponudnika

Akt o umetni inteligenci uvaja pojem »nadaljnjega ponudnika« (downstream provider, člen 3(63)), torej subjekta, ki pred uvedbo na trg v AI sistem vključi model drugega razvijalca. Na papirju se sliši tehnično, v praksi pa krovno vprašanje zveni — če vzameš temeljni model nekega ponudnika in ga fino prilagodiš za svoj namen, ali si še uvajalec sistema ali si postal ponudnik novega?

Odgovor daje člen 25 Akta v povezavi s smernicami za modele umetne inteligence za splošne namene (GPAI), ki jih je Komisija objavila julija 2025^[8]. Kadar prilagoditev znatno vpliva na splošnost, zmogljivosti ali profil tveganja modela, prilagojevalec postane ponudnik. Kot okvirno merilo smernice navajajo, da je prag dosežen, če prilagoditev porabi več kot tretjino prvotne računske zmogljivosti učenja modela — oziroma, če ta podatek ni znan, več kot 3⅓ × 10²² računskih operacij s plavajočo vejico (FLOP).

V praksi to pomeni, da SFT z LoRA adapterji na nekaj tisoč primerih verjetno ostane pod pragom. Resnično CPT na milijonih dokumentov lahko prag preseže — in s tem sproži obveznosti ponudnika — tehnično dokumentacijo, upravljanje tveganj, sistem kakovosti, priglasitev pri pristojnem organu, če gre za model s sistemskim tveganjem. RAG v tej zgodbi ne nastopi — model ostane nedotaknjen, zato tudi ne premakne podjetja v drugo vlogo.

Ko podatki postanejo del uteži

Druga plast je varstvo osebnih podatkov. EDPB je decembra 2024 sprejel mnenje 28/2024^[9], ki je postavil ravnilo za model, učen na osebnih podatkih. Mnenje je izrazilo preprosto stališče — model, učen na osebnih podatkih, se ne more avtomatično šteti za anonimnega. Anonimnost se presoja od primera do primera — da bi bil model res anonimen, mora biti izredno malo verjetno, da bi iz njega z razumnimi sredstvi kdo lahko pridobil izvirne osebne podatke.

Za fino prilagojene modele ima to tri neposredne posledice. Posameznikova pravica do izbrisa (člen 17 GDPR) v sistemu, kjer so osebni podatki razmazani po utežih, pomeni resno tehnično nalogo — obstajajo metode za »odučenje« (machine unlearning), vendar niso niti poceni niti zanesljive. Pravna podlaga za učenje modela se presoja po trikoračnem preizkusu zakonitega interesa, kjer mora biti posebej dokazana nujnost obdelave. In če se po objavi izkaže, da je bil del učnega korpusa pridobljen nezakonito, mnenje dopušča tudi najhujše sredstvo — izbris celotnega modela.

RAG tudi te dileme poenostavi. Dokument, v katerem so osebni podatki, je mogoče iz vektorske baze odstraniti v eni uri. Sled se po izbrisu ne vrne. Pravica do izbrisa je izpolnjena s preprostim dejanjem urednika baze. Z GDPR skladnostjo na ravni arhitekture se s tem bori bistveno manj kot pri fino prilagojenem modelu.

Graf 8 — Regulatorni semafor

RAG in fine-tuning skozi oči AI Acta in GDPR

Semafor je poenostavitev. Posamezne uvedbe lahko odstopajo — RAG s slabo upravljano bazo osebnih podatkov tudi po GDPR ni brez tveganj, in FT z LoRA na neosebnih podatkih je lahko v obeh stolpcih zelen. Grafika kaže tipični vzorec.

Kaj to pomeni za odločitev

V mnogih primerih regulatorna plast sama po sebi odloči med RAG-om in fine-tuningom, ne pa tehnična ali stroškovna. V svetovalnem pravnem sistemu, kjer se obravnavajo zasebne zadeve strank, je RAG nujen, ker drugače ni mogoče izpolniti pravice do izbrisa. V visoko tvegani odločitveni aplikaciji, kjer bi fine-tuning naredil iz podjetja ponudnika GPAI z vsemi obveznostmi, je treba računati z zahtevano tehnično dokumentacijo in priglasitvijo pri nadzornem organu. Pravna plast je pogosto najtrdnejša omejitev, zato ima smisel, da se postavi zgodaj v postopku odločitve, ne šele pri pregledu pred objavo.

§ 09 — KompasKako sem sam razporedil svoje projekte

Zemljevid iz § 04 je uporaben le, če ga postavimo na konkretne projekte. Imam štiri, ki zasedajo tri različne kvadrante, in ki v praksi pokažejo, da se iste matrike ne sme brati mehanično. Vsak projekt pove svoj razlog, zakaj je tam, kjer je.

Pravni LLM — zgornji levi kvadrant

Pravni LLM, ki ga razvijam pod oznako pravnik-v01, je postavljen na Gemmi 4 31B s CPT-jem na korpusu okoli 150 milijonov neobdelanih žetonov zakonov, sodne prakse, ločenih mnenj ustavnih sodnikov in doktrinarnih besedil (Pavčnik in drugi). Sledi SFT na skoraj pet tisoč parih navodilo-odgovor, pridobljenih iz razprav ustavnega sodišča. Projekt je šolski primer levega zgornjega kvadranta — znanje pravne stroke se sicer spreminja, a bistveno počasneje kot GDPR sodna praksa, pomembnejša pa je sposobnost argumentirati v tradiciji pravnega razmišljanja. Za to sposobnost ne obstaja knjiga, ki bi jo prek RAG-a dostavili modelu — je struktura mišljenja, ki se oblikuje z branjem tisočev odločitev in pisanjem v istem jeziku. Brez fine-tuninga model piše kot tuji opazovalec, s fine-tuningom dobi glas domačina.

Cena te odločitve so klasične pasti fine-tuninga — catastrophic forgetting pri preozko postavljenem korpusu, prekomerno prileganje pri SFT-ju, zapleteno posodabljanje ob spremembi sodne prakse. Evaluacija je zato zgrajena na zlatem naboru prek šeststotih vprašanj in cilj je sedem od desetih pri ocenjevanju z LLM kot sodnikom na rubriki, ki sem jo sam napisal.

DPOPilot — zgornji desni kvadrant (hibrid)

DPOPilot je svetovalec za varstvo podatkov, ki pokriva devetindvajset jurisdikcij Evropskega gospodarskega prostora. Znanje je izjemno dinamično — sodba CJEU izpred dveh tednov spremeni sliko, EDPB mnenje iz prejšnjega meseca prevalja prakso, nacionalne smernice se spreminjajo kvartalno. Fine-tuning za to znanje bi pomenil tedensko ponovno učenje, kar ni razumna izbira. Znanje zato živi v RAG-u — multilingvalni embedderji^[10], vektorska baza s semantičnim in leksikalnim iskanjem (BM25), rerank z domensko optimiziranim modelom.

Generator pa je fino prilagojen. DPO pismo ima svoj ton — kratko, jasno, s prikazom tveganj obeh strani, z Mnenjem pravnika in opozorilom, da končna odločitev ostane pri stranki. Tega tona generični model ne zadene brez vodila. Zato je izbor vzorec B iz § 05 — fino prilagojen generator na glas, RAG za dinamično znanje, sledljivost do izvora v vseh odgovorih. V kontekstu AI Acta prilagoditev ostaja pod pragom, ki bi premaknil vlogo ponudnika. V kontekstu GDPR-ja je arhitektura zdrava, ker osebnih podatkov strank v RAG-u ni.

Planetko — spodnji desni kvadrant

Planetko je RAG asistent za slovensko varstvo podatkov (GDPR in ZVOP-2). Znanje domene je dinamično, a jezik domene je dovolj podoben splošnemu pravnemu slovenskemu, da ne zahteva fine-tuninga generatorja. Težišče zahtevnosti je v iskanju — kakovosten query planner, hibridno iskanje (semantično in leksikalno po izrazih), rerank čez vrnjene odseke. Generator ostaja osnovni model brez posegov. Če projekt čez čas potrebuje specializiran glas, je mogoče dodati LoRA adapter za generator, a za zdaj to ni potrebno.

BiroLex — prav tako desno spodaj

BiroLex je iskalnik čez več kot oseminštirideset tisoč slovenskih pravnih členov z JSONB strukturo oznak (petintrideset oznak po sedmih domenah) in GIN indeksom. Gre za odmeven primer, kjer je RAG edina razumna izbira. Iskanje po zakonskih besedilih, ki morajo biti pokazana v izvirni obliki, bi bilo ob fine-tuningu etično vprašljivo — model bi se nad pravnimi besedili »ustvarjal« namesto iskal. Retriever tukaj opravi veliko več dela kot generator.

Štirje projekti, tri različni kvadranti, en skupen vzorec — odločitev je padla najprej na oseh dinamičnosti znanja in specifičnosti glasu, ne na tržnih trendih o fine-tuningu ali RAG-u.

Kaj iz tega vzeti

Kompas, ki sem ga postavil v § 04, ne napove odgovora avtomatično. Pove, katera vprašanja so odločilna. Ko jih postaviš, se odgovor običajno izkaže za hibrid z jasno poudarjenimi poudarki — in skoraj nikoli za čisto izbiro. Podjetje, ki gradi LLM sistem in prosi samo za fine-tuning, si zasluži vprašanje o dinamiki znanja. Podjetje, ki prosi samo za RAG, si zasluži vprašanje o glasu domene. V osmih od desetih primerov se pogovor nato preusmeri na hibrid, v enem na čisti RAG, in v preostalem na plitev SFT.

Znanje gre v RAG. Glas gre v fine-tuning. Kdor ta vrstni red obrne, izgubi denar enkrat, čas dvakrat in zaupanje strank trikrat.

Viri in literatura

Patrick Lewis et al., Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks, NeurIPS 2020. Izhodiščno delo, ki je vpeljalo RAG. arxiv.org/abs/2005.11401
Michael McCloskey in Neal Cohen, Catastrophic Interference in Connectionist Networks — The Sequential Learning Problem, Psychology of Learning and Motivation, vol. 24, 1989, str. 109–165.
Rafael Rafailov et al., Direct Preference Optimization — Your Language Model is Secretly a Reward Model, NeurIPS 2023. arxiv.org/abs/2305.18290
Liang Wang et al., Multilingual E5 Text Embeddings — A Technical Report, Microsoft Research, 2024. O embedderjih, uporabljenih v DPOPilot in Planetko. arxiv.org/abs/2402.05672
Tianjun Zhang et al., RAFT — Adapting Language Model to Domain Specific RAG, Berkeley AI Research, 2024. arxiv.org/abs/2403.10131
GitHub, Inside GitHub Copilot, 2023–2025, tehnične objave o arhitekturi in fine-tuningu modela. github.blog/tag/github-copilot
Uredba (EU) 2024/1689 Evropskega parlamenta in Sveta z dne 13. junija 2024 o določitvi usklajenih pravil o umetni inteligenci (Akt o umetni inteligenci), UL L z dne 12. julija 2024. eur-lex.europa.eu/eli/reg/2024/1689/oj
Evropska komisija, Smernice o področju uporabe obveznosti za modele umetne inteligence za splošne namene po Aktu o umetni inteligenci, odobrene 19. julija 2025. artificial-intelligence-act.com
European Data Protection Board, Opinion 28/2024 on certain data protection aspects related to the processing of personal data in the context of AI models, sprejeto 17. decembra 2024. edpb.europa.eu
Cohere, Rerank 3 — a new foundation model for efficient enterprise search and retrieval, 2024. Tehnična objava o domensko optimiziranih rerank modelih. cohere.com/blog/rerank-3