Esej · Analiza · Pravna tehnologija
Tiho krčenje in varnostno gledališče
Ko isti ponudnik javno zadržuje Mythos kot prenevaren za izdajo in hkrati tiho servira slabši Opus, dobimo dve trditvi, ki zahtevata zaupanje brez možnosti preverjanja.
§ 01 — OpažanjeClaude, ki ni več Claude
Zadnje mesece sem Opus 4.6 uporabljal večino delovnika. Vibe coding, dolge seje v Claude Code. Nekje konec marca sem začel opažati, da nekaj ni prav. Isti prompt, ki mi je februarja vrnil strnjeno preureditev treh funkcij s tremi koraki sklepanja, se je aprila vračal kot razvlečena parafraza. Bloki razmisleka so bili krajši ali jih ni bilo. Sledenje večstopenjskim navodilom je začelo razpadati po četrtem navodilu. Model je pogosteje obupal sredi naloge.
Mislil sem, da je stvar v meni. Neprespana noč. Neurejen kontekst. Pa ni bilo. Na isto težavo sem naletel pri kolegu, ki popolnoma drugače dela s Claudom. Nato na Redditu. Nato na GitHubu. Nato je aprila prišla neodvisna ponovna meritev, ki je dala številko tistemu občutku.
Pišem kot nekdo, ki Claude uporablja osem ur dnevno in se poklicno ukvarja z regulacijo umetne inteligence. Kar opisujem, presega tehnični trač — gre za pravno, ekonomsko in epistemološko vprašanje o tem, kaj sploh kupujemo, ko plačamo za model.
§ 02 — PodatkiKaj pokaže neodvisna ponovna meritev
Ekipa BridgeMind upravlja BridgeBench, merilni test za halucinacije pri kodiranju. 12. aprila 2026 so objavili ponovni preizkus: Claude Opus 4.6 je padel s 83,3 % in drugega mesta na 68,3 % in deseto mesto.[1] To je 15 odstotnih točk razlike in osem mest v razvrstitvi. Ne gre za zanemarljivo odstopanje.
Natančnost Claude Opus 4.6 pri halucinacijah v kodiranju, prva in ponovna meritev.
Vir: BridgeMind, BridgeBench public ranking, 12. april 2026.
Sliko je dodatno podprla viralna analiza 6.800 sej razvijalca, ki je primerjal kazalnike pred in po. Globina razmisleka naj bi padla za 67 %. Povprečno branje kode na datoteko se je skrčilo s 6,6 na 2,0.[2] Prav ti trije kazalniki, ki jih pri vibe kodiranju čutiš v koži — model, ki prebere manj datotek, bo izmislil več imen funkcij, ki ne obstajajo.
(6.800 sej)
na datoteko
Sonnet 4 zahtev (sep 2025)
prizadetih v konici
Glasswinga
Anthropic se je odzval z dveh strani. Boris Cherny, vodja Claude Code, je na GitHubu zanikal degradacijo in glavni očitek pripisal trem ne-utežnim spremembam: 9. februarja 2026 je Opus 4.6 dobil prilagodljivi napor kot privzeto stanje, 3. marca je privzeti napor padel na srednjo raven (napor 85), 7. aprila pa je napor za API, Bedrock, Vertex in Foundry spet zrasel na visokega.[3] Vzporedno je Shihipar na X-u zanikal splošnejši očitek, da Anthropic namenoma znižuje zmogljivost modela zaradi upravljanja povpraševanja.
Obe pojasnili sta načeloma utemeljeni. A naredita nekaj, na kar je treba paziti: preusmerita pogovor s trditve, ki jo uporabnik občuti (nekaj je drugače), na trditev, ki jo je laže zanikati (nismo spremenili uteži). Retorični manever, ki ga pravnik prepozna iz spisov. Dejstev ne zanikamo. Zanikamo njihovo kvalifikacijo.
§ 03 — Anatomija krčenjaTri tehnike, ki skupaj tvorijo tiho krčenje
Tiho krčenje je vzorec, ne le posamičen dogodek. Ponudniki razpolagajo z najmanj tremi mehanizmi, ki vsak posebej ni degradacija v ozkem tehničnem pomenu, skupaj pa pomenijo prav to, kar uporabnik občuti.
-
Sprememba privzetega napora brez obvestila
Anthropic je med februarjem in marcem Opus 4.6 prestavljal med prilagodljivim, srednjim in visokim naporom. Uporabnik iste stopnje naročnine je prejemal različno količino razmisleka za isti denar. Nobena od sprememb ni bila izrecno sporočena v vmesniku za končnega uporabnika.
-
Tihi prehod na manjši model pri preseženem limitu
Dokumentirani so primeri, ko je Claude Code po preseženi kvoti tiho padel z Opusa na Sonnet. Pri OpenAI-u je uradna politika, da GPT-5.3 Instant Mini ne bo prikazan v model pickerju kot rezervni model, kar ga naredi nevidnega za uporabnika.[4]
-
Kvantizacija, usmerjanje in različna strojna oprema
Anthropic je v pregledu po incidentu septembra 2025 sam pojasnil, da Claude teče hkrati na AWS Trainium, NVIDIA GPU in Google TPU, vsaka platforma z drugačnimi optimizacijami. Tri potrjene napake v mesecu dni so prizadele 16 % zahtev Sonnet 4 in najmanj 30 % uporabnikov Claude Code.[5] Decembra 2025 je sledilo pet novih incidentov v enem samem mesecu.
Epistemska skromnost zahteva protiutež. Analiza GitHub projekta o dnevni degradaciji[6] pošteno opozarja, da obstajajo pristranskosti: razkroj konteksta (kakovost pade z naraščajočo dolžino), začetno navdušenje, ki po nekaj tednih popusti, variabilnost težavnosti dnevnih nalog, socialno odmevanje (ko vsi tvitajo, da je Claude danes neumen, začneš opažati vsako napako). Raziskava ni našla dosledne povezave z dnevi v tednu. Del občutka je gotovo v glavi uporabnika.
To priznanje pa ne odstrani objektivnega dela. BridgeBench je neodvisna ponovna meritev. Pregled po incidentu priznava napake. Privzete nastavitve so bile spremenjene. To je preveč ujemanj v preveč virih, da bi bilo samo percepcija.
§ 04 — MythosObrat: prenevarno za izdajo
7. aprila 2026 je Anthropic predstavil Claude Mythos Preview in Project Glasswing. Mythos naj bi po njihovi lastni sistemski kartici avtonomno našel več tisoč ranljivosti ničelnega dne v operacijskih sistemih in brskalnikih, vključno s 27 let staro napako v OpenBSD in 16 let staro v FFmpegu. Poleg odkrivanja je samostojno zapisal delujoče eksploite, združil več ranljivosti jedra v eno napadalno verigo in izdelal postopek, s katerim program pobegne iz peskovnika brskalnika.[7]
Anthropic modela ne izpusti na trg. Namesto tega ustanovi Project Glasswing — dvanajst ameriških tehnoloških gigantov (Apple, Microsoft, Amazon in drugi) plus štirideset neimenovanih organizacij dobi dostop, da najdejo in zakrpajo ranljivosti, preden model uide v javnost. Obveza: 100 milijonov dolarjev v API kreditih, 4 milijoni dolarjev donacij projektom odprte kode.[8]
Bruce Schneier je na svojem blogu 13. aprila objavil komentar, ki ga je treba prebrati dvakrat. Prvič kot varnostni strokovnjak, ki pošteno prizna, da modeli to resnično znajo. Drugič kot skeptik, ki prizna, da gre hkrati za odličen PR.[9]
Njegova najpomembnejša opomba pa je tretja: Aisle, varnostno podjetje Stanislava Forta, je iste ranljivosti replicirala s starejšimi, javnimi, cenejšimi modeli, ko so dobili pravi del kode.[8] Iskanje ranljivosti za obrambne namene ne zahteva nujno zaprtega vodilnega modela. In ekskluzivnost Mythosa, na kateri počiva celotna zgodba, je v praksi verjetno manjša, kot Anthropic komunicira.
Kronologija protislovja postane vidna šele, ko jo položiš na eno os.
Šest mesecev, dva vzporedna signala
Anthropic: pregled po incidentu
Tri prekrivajoče se infrastrukturne napake intermitentno degradirajo Claude. 16 % zahtev Sonnet 4 v konici napačno preusmerjenih, 30 % uporabnikov Claude Code prizadetih.
OpenAI upokoji GPT-4o
Sistemska kartica GPT-5.2 sama priznava regresije v Instant načinu. Medij, blogerji, razvijalci zaznajo občutno spremembo pisnega sloga.
Claude Code harness regresija
Regresija uvedena 26. januarja, odstranjena 28. januarja. Priznano uradno.
Opus 4.6: prilagodljivi napor
Prva privzeta nastavitev, ki zmanjša razmislek.
OpenAI: konec GPT-4o/4.1
Upokojitev vseh starejših različic. Obstoječi pogovori avtomatsko migrirani na GPT-5.3 ali GPT-5.4 — a to so drugačni modeli z drugačnim vedenjem.
Opus 4.6: srednji napor (85)
Druga privzeta nastavitev. Kognitivni proračun modela pada še enkrat.
Mythos Preview + Project Glasswing
Anthropic razglasi, da je nov model prenevaren za izdajo. Hkrati Om Patel na X-u objavi 67 % drop analizo, ki postane viralna.
BridgeBench: ponovna meritev
Opus 4.6 pade s 83,3 % na 68,3 % natančnosti.
Schneier, Aisle, CFR odzivi
Mythos dobi obsežno medijsko pokritost. Council on Foreign Relations ga označi za inflection point za globalno varnost.
Evropa: BSI, EU Komisija
Nemški BSI šele začenja pogovore. UK AISI je Mythos že preizkusil. Evropska komisija preučuje implikacije po AI Actu in Cyber Resilience Actu.
Opus 4.7 — rešitev ali menjava teme?
Anthropic izda Opus 4.7. Ista cena, boljši merilni testi, nova stopnja napora (xhigh). Axios zapiše, da izdaja prihaja sredi tednov uporabniških pritožb, da je Opus 4.6 tiho postal slabši. Noben novinar ne zastavi očitnega vprašanja: ali to pomeni, da so bile pritožbe upravičene?
Kronologija razkrije vzorec. V šestih mesecih obstoječi modeli tiho krčijo napor in tiho padajo na manjše, hkrati pa podjetje razglaša prihajajočega prenevarnega naslednika. Signal je dvojen: produkt, ki ga plačujete danes, je slabši, produkt prihodnosti bo nemogoč. Oba pritiska nam govorita, naj sprejmemo status quo, a se odločimo za drugačne razloge.
In potem, natančno na dan, ko pišem ta esej — 16. aprila 2026 — Anthropic izda Opus 4.7.
Izbira trenutka ne bi mogla biti boljša. Dva tedna viralne kritike, BridgeBench ponovna meritev, široka medijska pokritost. Anthropic ne pojasni, kaj se je dogajalo z Opus 4.6. Namesto tega izda nov produkt. Merilni testi, ki jih objavi Anthropic sam, kažejo, da Opus 4.7 presega Opus 4.6, GPT-5.4 in Gemini 3.1 Pro, a hkrati v isti tabeli priznava, da zaostaja za Mythosom na vsakem merilu.[14]
Sporočilo je strukturno: dobili ste izboljšavo, a pravi model ostaja za zaprtimi vrati. Cenejši od Mythosa, slabši od Mythosa, vaš edini izbor.
Noben novinar od tistih, ki so danes pisali o izdaji, ni zastavil očitnega vprašanja: ali izdaja Opus 4.7 pomeni, da je Anthropic vedel, da je 4.6 upadel? Če je 4.7 resnično samo naravni naslednji korak, zakaj sovpada z vrhuncem pritožb? In če je odgovor na pritožbe, zakaj Anthropic tega ne pove?
§ 05 — AGI kot performativDefinicijska igra
Opazovalec brez pravniškega vzgajanja sliši o AGI kot o merljivem stanju: ko model doseže splošno inteligenco, bomo vedeli. Pravnik naj to sliši drugače.
OpenAI ima v pogodbi z Microsoftom določilo, da Microsoft izgubi privilegirane pravice do modelov, ko OpenAI interno razglasi, da je dosegel AGI. Razglasitev je vezana na profitni mejnik okoli 100 milijard dolarjev. Podjetje, ki ima finančno spodbudo, da ne razglasi AGI, ker bi s tem izgubilo razmerje z Microsoftom, hkrati v javni komunikaciji trdi, da se mu AGI približuje.
Anthropic uporablja svoj okvir — Responsible Scaling Policy in AI Safety Levels (ASL-1 do ASL-4+). Prag ASL-3 je model, ki lahko smiselno pomaga akterjem s hudim škodnim potencialom. Mythos naj bi sedel na tem pragu ali nad njim. Prag si določa Anthropic sam. Presojo, ali je prag presežen, opravlja Anthropic sam. Posledice te presoje (restrikcije, glasswing program, dostop za izbranih 12 + 40 partnerjev) razporeja Anthropic sam.[10]
Za pravnika je to enostranski performativni govorni akt. Termin AGI ali ASL-3 model ne obstaja v objektivnem svetu, obstaja, ko ga izdajatelj razglasi. Primerjava z bistveno predelavo v carinskem pravu ali genuine use znamke pri EU sodišču je produktivna: to so pravni pojmi, kjer definicijo določa pristojni in ki se zato redno zlorabljajo. Za oboje je EU sprejela obsežne direktive in sodno prakso, ki definicijo zamejuje. Za AGI ni take direktive. Za ASL-3 tudi ne. Industrija si je izmislila termin in si pridrži pravico ga definirati.
Obratna plat je enako nelagodna: regulatorji trenutno nimajo alternativnega merila. Akt o umetni inteligenci govori o modelih umetne inteligence za splošne namene s sistemskim tveganjem (angl. GPAI). Prag, po katerem sistemsko tveganje nastopi po domnevi, je 1025 računskih operacij s plavajočo vejico (FLOP) pri učenju.[11] Je ta definicija boljša od ASL-3? Deloma. Je numerična, preverljiva, objavljiva. A ni dovolj. Model z manj FLOP-i, a bolje izbranimi učnimi podatki, lahko prehiti večjega. FLOP-ovski prag bo v treh letih zastaran tako, kot vsak fiksni numerični prag, ki ga regulativa postavi za hitro razvijajočo se tehnologijo. Napredek v arhitekturi, kvantizaciji in učnih postopkih bo pomenil, da bodo za isto zmogljivost potrebni vedno manjši računski vložki.
§ 06 — Izvedenec v lastni zadeviMerilni test kot konflikt interesov
BridgeBench je pomemben zaradi tega, kar stoji za številko. Gre za neodvisno ponovitev testa, kar je v okolju LLM-ov redka praksa.
Večina merilnih testov, ki jih ponudniki uporabljajo v komunikaciji, ima tri strukturne težave:
- testi so javno dostopni od izida, zato lahko končajo v učnem naboru naslednje različice modela (onesnaženje MMLU z učnimi podatki je dobro dokumentirano),
- ponudnik testira na sebi — v Anthropicovih naknadnih analizah se večkrat pojavijo interne ocene, ki jih nihče zunaj ne vidi,
- izbor testov je izbiren — objavljajo se tisti, ki gredo ponudniku v prid.
V pravu bi izvedenca, ki ga plača ena stranka in ki ocenjuje delo te stranke, takoj izločili zaradi nasprotja interesov. Pri LLM smo naredili izjemo. Sprejeli smo, da izvedenca plača in izbere podjetje samo.
Ko Anthropic ali OpenAI v blogu napiše, da nov model prehiti starega za 8 odstotkov na testu HumanEval za generiranje kode, je to primerljivo pravnemu mnenju, ki ga je naročila stranka, da bi podprla svoje ravnanje. Ugotovitve so morda pravilne, a njihova verodostojnost ni preverjena, dokler je ne potrdi nasprotni ali neodvisen izvedenec. BridgeBench je eden od maloštevilnih takih neodvisnih glasov. Zato tistih 15 odstotnih točk šteje drugače kot katerikoli lastna Anthropicova številka.
Regulativni odgovor na ta problem bi bil preprost, a ga v trenutni ureditvi ni: akreditacija neodvisnih merilnih teles za vodilne modele. UK AI Security Institute (AISI) je nastavek — javno financirano telo s 100 milijonov funtov, ki je Mythos že preizkusilo.[12] Nemški BSI šele začenja pogovore. Evropa nima enakovrednega telesa, ki bi delovalo na isti tehnični ravni. Strukturna vrzel, ki samo čaka na škandal, da bi postala vidna.
Akreditacija neodvisnih merilnih teles ne sme postati nov birokratski postopek, v katerem bodo modeli čakali v vrsti mesece ali leta, da jih nekdo preizkusi. Mora biti avtomatizirana do te mere, da se model po vseh bistvenih parametrih preizkusi v največ nekaj dneh. Če bo postopek zastavljen kot klasična EU akreditacija — s papirologijo, roki in podpisi — bodo modeli v času ocenjevanja že zastareli in celoten sistem bo dodatno zaostal, ne da bi pokril prvotni problem.
§ 07 — Kaj je Opus 4.6?Identiteta produkta
Povejmo glasno nekaj, kar iz pregledov po incidentih izhaja implicitno. Ko plačaš za Claude Opus 4.6, ne kupiš ene uteži. Kupiš marketinško ime, ki visi nad rojem različnih stvari: različno strojno opremo (Trainium, NVIDIA, TPU), različnimi stopnjami napora, različnimi odločitvami o usmerjanju, različnimi kvantizacijskimi profili in različnimi naknadnimi popravki.
Potegnimo dve paraleli.
New Coke, 1985
Coca-Cola spremeni recept in še naprej prodaja pod istim imenom. Javna reakcija je bila tako ostra, da se je podjetje v 79 dneh vrnilo k staremu receptu, novo zmes pa preimenovalo v Coca-Cola II.
Pri blagovni znamki družba pričakuje, da ime ustreza stabilnemu receptu. Sprememba recepta brez spremembe imena je tveganje za blagovno znamko.
Claude Opus 4.6, 2026
Anthropic spremeni privzete nastavitve, logiko usmerjanja in vzorce naknadnih popravkov. Ime ostaja isto. Javna reakcija je hrup na Redditu in GitHubu, a pravno stanje je nejasno.
Pri AI storitvi družba tega pravila še ne pozna. Razvijalec, ki je februarja delal s Claude Opus 4.6, v aprilu dela s produktom, ki nosi isto ime, a ima drugačno vedenje.
Pomembno je biti pri tem natančen. Uteži modela, kot poudari Cherny, ostajajo iste. Vendar produkt Claude Opus 4.6 ni le skupek uteži — je agregat, ki vključuje tudi infrastrukturo in privzete nastavitve, ti pa se spreminjajo. ZVPot-1 v 73. členu določa objektivne zahteve za skladnost blaga in storitev: blago mora ustrezati značilnostim in funkcionalnosti, ki se običajno pričakujejo od blaga enake vrste, vključno s trajnostjo in varnostjo. Uporabljeno na digitalne storitve — Opus 4.6 iz februarja in Opus 4.6 iz aprila nista enaka, ker imata različen profil zmogljivosti. Vprašanje, ki ga bo prej ali slej moralo rešiti sodišče.
§ 08 — Pravna sledljivostEpistemološka asimetrija
Pravniški poklic stoji in pade s sledljivostjo. Pravnik, ki odda mnenje, mora biti sposoben kadar koli kasneje rekonstruirati, na kaj se je oprl: katera različica zakona je takrat veljala, katera sodna praksa je bila v tistem trenutku aktualna, kateri komentarji in razlage so bili na voljo. Zakoni so arhivirani, sodna praksa je dostopna, komentarji so v knjižnicah. Sledljivost pravne argumentacije je zagotovljena.
Kar pa ni na voljo: stanje modela, ki bi ga kdo uporabil v pripravi. Če sem januarja Claudu dal 40 datotek in od njega dobil arhitekturno analizo v obliki treh scenarijev, ta analiza danes ni več ponovljiva. Ne samo, da isti prompt vrne drugačno besedilo — celo osnovni pristop k problemu se lahko spremeni, če je bil model vmes prestavljen med stopnjami napora ali med strojno platformo. Nimam dostopa do uteži izpred treh mesecev. Nimam izhodiščnega testa, ki bi ga neodvisno sprožil. Nimam možnosti, da bi nekomu naročil revizijo, ki bi pokazala, kaj je model januarja sploh bil.
Schneier v svojem blogu postavi trditev, ki jo je treba prebrati dvakrat: Maybe the sea change just happened. Maybe it happened six months ago. Maybe it will happen in six months. Več kot filozofska opomba o napovedovanju. Tiho priznanje, da nimamo instrumentov, ki bi ločili eno od drugega. Vsi merilni instrumenti so v rokah istih subjektov, ki jih merimo.
Za pravnika, ki bi razmišljal o uporabi LLM orodij pri svojem delu, je to nesprejemljivo. Mnenje, za katerega aprila ne moreš reproducirati niti vhoda niti izhoda, ni več mnenje. Postane plavajoč artefakt, ki se sklicuje na orodje, ki ga več ni.
§ 09 — Regulativna luknjaTiho krčenje pod ZVPot-1 in Aktom o umetni inteligenci
Trenutna pravna ureditev tega vzorca ne zajame učinkovito.
ZVPot-1 v 50. členu ureja zavajajoče opustitve pri urejanju nepoštenih poslovnih praks.[13] Če Anthropic 3. marca 2026 spremeni privzeti napor Opus 4.6 z visokega na srednjega in tega ne razkrije v vmesniku, ima uporabnik argument, da je to opustitev bistvene informacije o lastnostih produkta — lastnosti, ki vpliva na percepcijo kakovosti, ki jo plačuje. Direktiva 2005/29/ES o nepoštenih poslovnih praksah to podpira. Težava je seveda dokazni položaj: uporabnik mora dokazati, da sprememba vpliva na njegovo odločitev za nadaljnje plačevanje. BridgeBench je pri tem prvovrsten dokaz.
Akt o umetni inteligenci za modele umetne inteligence za splošne namene s sistemskim tveganjem zahteva obsežno dokumentacijo in transparentnost. 55. člen nalaga nadzor nad incidenti, dokumentacijo tehničnih lastnosti in sistemskih ocenjevanj.[11] A nikjer izrecno ne naslavlja retroaktivnih tihih sprememb zmogljivosti po izdaji modela na trg. Model, ki je bil decembra 2025 ocenjen na določen profil, se lahko aprila 2026 vede drugače — in Akt o umetni inteligenci ne zahteva, da se ocena obnovi.
Ta luknja ni naključna. Zakonodajalci so leta 2023 in 2024 pojem model razumeli kot tehnični artefakt, ki se usposobi enkrat in potem uporablja. V praksi 2026 je model nenehno optimizirana storitev. Neskladje je hkrati pravno vprašanje in preizkus, ali smo pripravljeni popraviti regulativo, ko se praksa spremeni hitreje od nje.
-
Obveznost razkritja privzetih nastavitev
Vsaka sprememba privzetega napora, logike usmerjanja ali rezervnega vzorca, ki vpliva na zmogljivost, bi morala biti javno dokumentirana in sporočena pred uveljavitvijo. Analogija: spremembe splošnih pogojev poslovanja.
-
Akreditacija neodvisnih merilnih teles
Dvojnik UK AI Security Institute-a, a z dostopom do uteži in pravico objave rednih ocen. Evropa tak organ potrebuje tako za Mythos-class modele kot za letne ocene glavnih komercialnih produktov.
-
Arhivska pravica do izhodišča
Pravica plačljivega uporabnika, da ob oddaji pomembnega rezultata (npr. pravno mnenje, zdravstveno diagnozo, revizijo kode) dobi digitalno potrdilo o tem, katera različica modela je rezultat ustvarila, z zgoščeno vrednostjo konfiguracije. Primerjava: časovni žig EIDAS.
-
Prag za ponovno oceno po Aktu o umetni inteligenci
Če se privzete nastavitve ali usmerjanje spremenijo tako, da na javno znanem merilu povzročijo padec za več kot X %, se šteje, da je bil izdan nov model v smislu Akta o umetni inteligenci in sprožijo se obveznosti 55. člena za novi izhodiščni profil.
§ 10 — ZaključekSuvereni modeli, delavnica in skrbnost
Ko sem februarja začel bolj resno razmišljati o suverenem pravnem LLM-u, ki bi tekel na EuroHPC infrastrukturi (MareNostrum 5, Vega), je bil motiv jezikovna pokritost osmih do trinajstih manjših EU jurisdikcij. To je še vedno pravi motiv. Aprilska epizoda pa je dodala drugega, mogoče enakovrednega. Model, ki teče na javni infrastrukturi z odprtimi utežmi v temeljni različici, ni subjekt kvartalnih optimizacij zagonskega podjetja. Utež, ki jo imaš v rokah in jo lahko shraniš, ne more biti tiho spremenjena brez tvoje vednosti.
Za to se ne odločam iz ideologije. Gre za mehaniko zaupanja v orodje. Zaupanje v človeka je stvar etike in biografije. Zaupanje v orodje je stvar ponovljivosti. Orodje, ki se spreminja brez tvoje vednosti, tega ne more ponuditi.
Vzporedno pripravljam intenzivno delavnico za pravnike (junij 2026, dva po tri ure). Ko pišem ta esej, se dobesedno sprašujem, kaj bom predaval. Če bom predaval o pravilnem pisanju promptov, bodo ti čez mesec dni zastareli. Če bom predaval o orodjih, se bodo ta spremenila. Edino, kar se splača učiti, je metodologija — kako preverjam, ali je orodje storilo to, kar je trdilo, da je, kako rekonstruiram pot nazaj, kako gradim lastne izhodiščne teste, ki se jih da ponoviti čez pol leta. Tehnika zastari. Pravna skrbnost v novi obleki — ne.
Med pisanjem tega eseja mi je Claude Opus 4.6 vrnil stavek, ki sem ga začetoma pustil. Pa sem ga kasneje sam spremenil. Opazka, ki sem jo pričakoval, je imela strukturo iz februarja. Stavek, ki sem ga dobil, pa strukturo iz aprila. Ne vem, ali je bilo to naključje ali sprememba napora ali moja pristranskost. To nevednost moram priznati. In hkrati moram z njo nekaj narediti — ker če je ne priznam in z njo kaj ne naredim, so naslednji rezultati, ki bodo temeljili na tem orodju, manj zanesljivi, kot se zdi.
Viri in literatura
- BridgeMind, BridgeBench ponovna meritev, 12. april 2026. VentureBeat povzetek.
- SCAND.Ai, Anthropic Accused of Claude Opus 4.6 Shrinkflation, april 2026. scand.ai.
- VentureBeat, Is Anthropic nerfing Claude? Users increasingly report performance degradation as leaders push back, 14. april 2026. venturebeat.com.
- Releasebot, OpenAI Release Notes, april 2026 — GPT-5.3 Instant Mini kot nevidni rezervni model. releasebot.io.
- Grizzly Peak Software, Claude Code Quality Drops: 6 Fixes That Actually Work, marec 2026, povzetek Anthropicovega pregleda po incidentu, september 2025. grizzlypeaksoftware.com.
- shanraisshan, llm-day-to-day-degradation, 5. marec 2026. GitHub.
- Anthropic Red Team, Claude Mythos Preview blog, 7. april 2026 (povzeto prek Schneierja in Aisle).
- AISLE, AI Cybersecurity After Mythos: The Jagged Frontier, april 2026. aisle.com.
- Bruce Schneier, On Anthropic’s Mythos Preview and Project Glasswing, 13. april 2026. schneier.com.
- MindStudio, What Is Claude Mythos? Anthropic’s Most Dangerous AI Model Explained, april 2026. mindstudio.ai.
- Uredba (EU) 2024/1689 Evropskega parlamenta in Sveta o umetni inteligenci (Akt o umetni inteligenci), 51. in 55. člen. Uradni list EU L, 12. 7. 2024.
- The Decoder / POLITICO, Claude Mythos is a wake-up call for Europe’s AI safety apparatus, 14. april 2026. the-decoder.com.
- Zakon o varstvu potrošnikov (ZVPot-1), Uradni list RS, št. 130/22 in nadaljnje spremembe, 50. člen (zavajajoče opustitve), 73. člen (objektivne zahteve za skladnost).
- Axios, Anthropic releases Claude Opus 4.7, concedes it trails unreleased Mythos, 16. april 2026. axios.com.