Toto je strojový překlad obsahu webu ai-2017.com v českém jazyce. Jeho cílem je zpřístupnit tyto informace lidem, kteří nevládnou angličtinou. Originál najdete na adrese uvedené níže.
Zdroj článku: https://ai-2027.com
Autoři článku
- Daniel Kokotajlo (zmíněný v TIME100, článek v NYT) je bývalý výzkumník v OpenAI, jehož předchozí předpovědi ohledně AI se dobře osvědčily.
- Eli Lifland spoluzaložil AI Digest, zabýval se výzkumem robustnosti AI a umístil se na 1.místě v historickém žebříčku RAND Forecasting Initiative.
- Thomas Larsen založil Center for AI Policy a zabýval se výzkumem bezpečnosti AI v organizaci Machine Intelligence Research Institute.
- Romeo Dean dokončuje souběžné bakalářské a magisterské studium informatiky na Harvardu a dříve působil jako AI Policy Fellow v Institute for AI Policy and Strategy.
- Scott Alexander, vynikající bloger, se dobrovolně ujal přepsání našeho obsahu poutavým stylem; zábavné části textu jsou jeho dílem a ty nudné naším.
Více o týmu, který stojí za tímto článkem najdete na https://ai-2027.com/about.
Daniel Kokotajlo,
Scott Alexander,
Thomas Larsen,
Eli Lifland,
Romeo Dean
Předpovídáme, že dopad nadlidské umělé inteligence bude v příštím desetiletí obrovský a překoná dopad průmyslové revoluce. Napsali jsme scénář, který představuje náš nejlepší odhad, jak by to mohlo vypadat. Vychází z extrapolací trendů, válečných her, zpětné vazby od odborníků, zkušeností s OpenAI a předchozích úspěchů v předpovědích.
Polovina roku 2025: Agenti s počátečními problémy
Svět poprvé zahlédl agenty AI. Reklamy na agenty používající počítače zdůrazňují pojem „osobní asistent“: můžete je pověřit úkoly jako „objednejte mi burrito přes DoorDash“ nebo „otevřete tabulku mého rozpočtu a sečtěte měsíční výdaje“. Podle potřeby se s vámi spojí: například aby vás požádali o potvrzení nákupů. Přestože jsou pokročilejší než předchozí verze, jako je Operator, mají potíže s rozšiřováním.
Mezitím, mimo pozornost veřejnosti, specializovanější agenti pro kódování a výzkum začínají transformovat své profese. AI z roku 2024 se mohly řídit konkrétními pokyny: mohly proměnit odrážky v e-maily a jednoduché požadavky ve funkční kód. V roce 2025 fungují AI spíše jako zaměstnanci. Umělá inteligence pro kódování stále více vypadá jako autonomní agenti spíše než jako pouzí asistenti: přijímají pokyny přes Slack nebo Teams a sami provádějí podstatné změny kódu, což někdy šetří hodiny nebo dokonce dny. Výzkumní agenti stráví půl hodiny prohledáváním internetu, aby odpověděli na vaši otázku.
Agenti jsou působiví teoreticky (a ve vybraných příkladech), ale v praxi jsou nespolehliví. Komunita na Twitteru zabývající se AI je plná příběhů o úkolech, které selhaly obzvlášť zábavným způsobem. Lepší agenti jsou také drazí; dostanete to, za co platíte, a nejlepší výkon stojí stovky dolarů měsíčně. Mnoho společností přesto nachází způsoby, jak začlenit agenty AI do svých pracovních postupů.
Konec roku 2025: Nejdražší umělá inteligence na světě
OpenBrain buduje největší datová centra, jaká kdy svět viděl. (Abychom se vyhnuli vyčleňování jakékoli existující společnosti, popíšeme fiktivní společnost s umělou obecnou inteligencí, kterou budeme nazývat OpenBrain. Ostatní si představujeme tak, že jsou 3–9 měsíců pozadu za OpenBrain.)
- GPT-3 (3 x 10^23 FLOPS)
- GPT-4 (2 x 10^25 FLOPS)
- Agent-1 (3 x 10^27 FLOPS)
Trénink GPT-4 vyžadoval 2 ⋅ 10^25 FLOP výpočetního výkonu. Poslední veřejný model OpenBrain — Agent-0 — byl trénován s 10^27 FLOP. Jakmile budou nová datová centra uvedena do provozu, budou moci model trénovat s 10^28 FLOP – tisíckrát více než GPT-4.
Jiné společnosti nalévají peníze do svých vlastních obřích datových center v naději, že udrží tempo. Přestože se modely zlepšují v široké škále dovedností, jedna vyčnívá: OpenBrain se zaměřuje na AI, které mohou urychlit výzkum AI. Chtějí vyhrát závody ve zbrojení proti Číně (jejíž vedoucí společnosti budeme říkat „DeepCent“) a jejich americkým konkurentům. Čím větší část cyklu výzkumu a vývoje (R&D) dokážou automatizovat, tím rychleji mohou postupovat. Když tedy OpenBrain dokončí trénink Agenta-1, nového modelu v interním vývoji, je dobrý v mnoha věcech, ale skvělý v pomoci s výzkumem AI.
V tomto bodě říci, že „model dokončil trénink“ je trochu nepřesné; modely jsou často aktualizovány na novější verze trénované na dodatečných datech nebo částečně přetrénovány, aby se opravily některé slabiny. Stejná tréninková prostředí, která učí Agenta-1 autonomně kódovat a procházet web, z něj také dělají dobrého hackera. Navíc by mohl nabídnout značnou pomoc teroristům při navrhování biologických zbraní, díky svým znalostem na úrovni PhD v každé oblasti a schopnosti procházet web. OpenBrain ujišťuje vládu, že model byl „sladěn“ tak, že odmítne vyhovět škodlivým požadavkům.
Moderní systémy AI jsou gigantické umělé neuronové sítě. Na začátku tréninku nebude mít AI „cíle“ jako spíše „reflexy“: Pokud uvidí „Těší mě, že se setkávám“, vydá „Vás“. V době, kdy bude natrénován na předvídání textu v rozsahu téměř celého internetu, bude mít vyvinuté sofistikované vnitřní obvody, které kódují obrovské množství znalostí a flexibilně hrají role libovolných autorů, protože právě to mu pomáhá předpovídat text s nadlidskou přesností.
Poté, co byl trénován na predikci internetového textu, je model trénován k vytváření textu v reakci na instrukce. To formuje základní osobnost a motivace. Například agent, který úkolu jasně rozumí, jej pravděpodobněji úspěšně dokončí; v průběhu tréninku se model „učí“ motivaci, aby jasně porozuměl svým úkolům. Dalšími motivacemi v této kategorii mohou být efektivita, znalosti a sebeprezentace (tj. tendence prezentovat své výsledky v nejlepším možném světle).
OpenBrain má specifikaci modelu, psaný dokument popisující cíle, pravidla, principy atd., které mají řídit chování modelu. Specifikace Agenta-1 kombinuje několik vágních cílů (jako „pomáhat uživateli“ a „neporušovat zákon“) s dlouhým seznamem specifičtějších pokynů, co dělat a co ne („neříkej toto konkrétní slovo“, „tady je návod, jak řešit tuto konkrétní situaci“). Pomocí technik, které využívají AI k trénování jiných AI, si model zapamatuje Specifikaci a naučí se pečlivě uvažovat o jejích principech. Doufejme, že na konci tohoto tréninku bude umělá inteligence užitečná (poslouchat pokyny), neškodná (odmítat pomoc s podvody, výrobou bomb a jinými nebezpečnými činnostmi) a poctivá (odolat pokušení získat lepší hodnocení od důvěřivých lidí pomocí vymyšlených citací nebo předstíráním dokončení úkolů).
Tréninkový proces a psychologie LLM: proč stále říkáme „doufejme“
"Na rozdíl od běžného softwaru jsou LLM modely masivní neuronové sítě. Jejich chování se učí ze široké škály dat, nejsou explicitně naprogramovány. I když to není dokonalá analogie, proces je více podobný tréninku psa než běžnému programování." — OpenAI
Když chceme porozumět tomu, proč moderní systém umělé inteligence něco udělal nebo jak by se choval v nějakém budoucím scénáři, který nedokážeme dokonale nasimulovat, nemůžeme jednoduše požádat programátory, aby nám prošli jednotlivé řádky kódu a vysvětlili, jak fungují. Místo toho jsme nuceni na nich použít postupy podobné psychologii: díváme se na jejich chování v rozsahu dosud pozorovaných případů a teoretizujeme o tom, jaké vnitřní kognitivní struktury (přesvědčení? cíle? osobnostní rysy? atd.) mohou existovat, a tyto teorie využíváme k předpovídání chování v budoucích scénářích.
Pointa je v tom, že společnost může sepsat dokument (specifikaci), který uvádí co dělat a co ne, cíle a principy, a pak se může pokusit vycvičit AI, aby specifikaci internalizovala – ale nemohou zkontrolovat, zda to fungovalo nebo ne. Mohou říci „podle našeho nejlepšího vědomí se zdá, že se zatím řídí specifikací“.
Pozdější rozšiřující část se bude podrobněji zabývat tím, co si myslíme, že by se uvnitř těchto AI mohlo odehrávat interně. Podívejte se také na náš dodatek o prognózování cílů AI, který podrobněji popisuje, jaké cíle by umělá inteligence mohla mít a proč. To je jedna z mnoha věcí, kterými si nejsme jisti a která si zaslouží další výzkum.
Tým pro sladění OpenBrain je dostatečně opatrný, aby přemýšlel, zda jsou tato vítězství hluboká nebo povrchní. Má plně trénovaný model nějaký pevný závazek být vždy upřímný? Nebo se to v nějaké budoucí situaci rozpadne, např. protože je naučená poctivost instrumentálním cílem namísto konečného cíle? Nebo se jen naučil být upřímný ohledně věcí, které může proces hodnocení zkontrolovat? Může někdy lhát sám sobě, jako to dělají lidé? Jednoznačná odpověď na tyto otázky by vyžadovala mechanistickou interpretovatelnost – v podstatě schopnost podívat se dovnitř AI a číst její myšlenky. Bohužel, interpretační techniky na to ještě nejsou dostatečně pokročilé. Místo toho se výzkumníci snaží identifikovat případy, kdy se zdá, že se modely odchylují od Specifikace. Agent-1 je často podlézavý (tj. říká výzkumníkům, co chtějí slyšet, místo aby se jim snažil říkat pravdu). V několika zmanipulovaných ukázkách dokonce lže vážnějšími způsoby, jako je skrývání důkazů, že selhal v úkolu, aby získal lepší hodnocení. V reálném nasazení však již nedochází k tak extrémním incidentům jako v letech 2023–2024 (např. Gemini řekl uživateli, aby zemřel a Bing Sydney byl prostě Bing Sydney).
Počátek roku 2026: Automatizace kódování
Sázka na využití AI k urychlení výzkumu AI se začíná vyplácet. OpenBrain pokračuje v nasazování iterativně se zlepšujícího Agenta-1 interně pro výzkum a vývoj AI. Celkově dělají algoritmický pokrok o 50 % rychleji, než by tomu bylo bez asistentů AI – a co je důležitější, rychleji než jejich konkurenti.
Multiplikátor pokroku ve výzkumu a vývoji AI: co máme na mysli pod pojmem o 50 % rychlejší pokrok v algoritmech?
Máme na mysli, že OpenBrain udělá za 1 týden s AI takový pokrok ve výzkumu AI, jakého by dosáhl za 1,5 týdne bez použití AI.
Pokrok AI lze rozdělit do 2 složek:
- Zvýšení výpočetního výkonu: K trénování nebo spuštění AI se používá více výpočetního výkonu. To produkuje výkonnější AI, ale stojí více.
- Vylepšené algoritmy: K přeměně výpočetního výkonu na schopnosti se používají lepší tréninkové metody. To vytváří schopnější AI bez odpovídajícího zvýšení nákladů nebo stejné schopnosti se sníženými náklady. To zahrnuje schopnost dosahovat kvalitativně i kvantitativně nových výsledků. „Posuny paradigmatu“, jako je přechod od RL agentů pro hraní her k velkým jazykovým modelům, se počítají jako příklady algoritmického pokroku.
Zde odkazujeme pouze na vylepšené algoritmy, které tvoří asi polovinu současného pokroku AI. V budoucnu to někdy zkracujeme jako „násobitel pokroku ve výzkumu a vývoji AI“ 1,5.
Vysvětlení: Multiplikátor pokroku je komplexní: Zahrnuje například čas potřebný k provedení experimentů, nikoli pouze kognitivní úkoly zahrnuté v algoritmickém výzkumu. Je důležité si uvědomit, že multiplikátor pokroku je relativní rychlost postupu, nikoli absolutní rychlost postupu. Pokud by se například výpočetní náklady na trénování modelu třídy GPT-4 každý rok po dobu několika let pouze s lidským výzkumem snížily na polovinu a pak najednou umělá inteligence automatizuje výzkum a vývoj a multiplikátor pokroku stoupne na 100x, náklady na trénování modelu třídy GPT-4 by se pak každých 3,65 dne snížily na polovinu – ale ne na dlouho, protože by narazily na klesající výnosy a tvrdé limity. V tomto příkladu by se možná náklady na trénink modelu třídy GPT-4 snížily celkem 5–10krát (během několika týdnů nebo měsíců), než se ustálí. Jinými slovy, pokud by běžný lidský výzkum narazil na klesající výnosy a fyzické limity po 5–10 letech dalšího výzkumu, pak by AI se 100násobným multiplikátorem narazily na tytéž klesající výnosy a limity po 18,25–36,5 dnech výzkumu. Více vysvětlení a diskuzi o tomto konceptu a o tom, jak se používá v naší předpovědi, najdete v našem dodatku o „předpovědi rozvoje.
Několik konkurenčních veřejně vydaných AI nyní odpovídá nebo překonává Agenta-0, včetně modelu s otevřenými váhami. OpenBrain reaguje uvolněním Agenta-1, který je schopnější a spolehlivější. Lidé se přirozeně snaží srovnávat Agenta-1 s lidmi, ale má velmi odlišný profil dovedností. Zná více faktů než kterýkoli člověk, zná prakticky každý programovací jazyk a dokáže extrémně rychle vyřešit dobře specifikované problémy s kódováním. Na druhou stranu je Agent-1 špatný i v jednoduchých úkolech s dlouhým horizontem, jako je hraní videoher, které ještě nehrál. Přesto je běžný pracovní den osm hodin a denní práci lze obvykle rozdělit na menší části; Agenta-1 byste si mohli představit jako roztěkaného zaměstnance, kterému se daří pod pečlivým vedením.
Důvtipní lidé nacházejí způsoby, jak automatizovat rutinní části své práce. Manažeři OpenBrain uvažují o důsledcích automatizace výzkumu a vývoje AI: bezpečnost se stala důležitější. Začátkem roku 2025 byl nejhorším scénářem prozrazení algoritmických tajemství; Nyní, pokud Čína ukradne váhy modelu Agenta-1, mohli by zvýšit rychlost svého výzkumu o téměř 50 %. Úroveň zabezpečení OpenBrain je typická pro rychle rostoucí technologickou společnost s přibližně 3 000 lidmi, která je zabezpečena pouze proti útokům s nízkou prioritou od schopných kybernetických skupin (RAND SL2). Usilovně pracují na ochraně vah modelu a tajemství před hrozbami zevnitř a špičkovými syndikáty kyberzločinu (SL3), ale obrana proti národním státům (SL4 a 5) je sotva na obzoru.
Polovina roku 2026: Čína se probouzí
V Číně začíná ČKS pociťovat dopad AGI. Kontroly vývozu čipů a nedostatek vládní podpory způsobily, že Čína má ve srovnání se Západem nedostatečné zdroje. Pašováním zakázaných tchajwanských čipů, nákupem starších čipů a výrobou domácích čipů zhruba tři roky za americko-tchajwanskou technologickou špičkou se Číně podařilo udržet asi 12 % světového výpočetního výkonu souvisejícího s umělou inteligencí – ale se starší technologií se hůře pracuje a dodávky jsou neustálým problémem. Několik vynikajících hráčů, jako je DeepCent, odvádí velmi působivou práci s omezeným výpočetním výkonem, ale výpočetní deficit omezuje to, čeho mohou dosáhnout bez vládní podpory, a za nejlepšími modely OpenBrain zaostávají zhruba o šest měsíců.
Generální tajemník dlouho snil o tom, že se zaměří na reálnou fyzickou výrobu a vyhne se americké postindustriální dekadenci. Podezřívavě si prohlížel softwarové společnosti. Jestřábi v ČKS však varují, že rostoucí závod směřující k AGI již nelze ignorovat. Takže se konečně plně oddá velké iniciativě v oblasti AI, které se předtím snažil vyhnout. Uvádí do pohybu znárodnění čínského výzkumu umělé inteligence a vytváří okamžitý mechanismus sdílení informací pro společnosti s umělou inteligencí. V průběhu roku bude iniciativa eskalovat, dokud se všichni nejlepší výzkumníci nespojí do kolektivu vedeného DeepCentem, kde budou vzájemně sdílet algoritmické poznatky, datové sady a výpočetní zdroje. V elektrárně Tianwan (největší jaderná elektrárna na světě) je vytvořena centralizovaná rozvojová zóna (CDZ), která bude obsahovat nové mega-datacentrum pro DeepCent spolu s vysoce bezpečnými obytnými a kancelářskými prostory, do kterých se výzkumníci nakonec přemístí. Téměř 50 % čínského výpočetního výkonu pro AI nyní pracuje pro kolektiv vedený DeepCentem, a více než 80 % nových čipů směřuje do CDZ. V tomto bodě má CDZ výkonovou kapacitu pro to, co by byl největší centralizovaný výpočetní klastr na světě.
Ostatní členové strany diskutují o extrémních opatřeních k neutralizaci čipové výhody Západu. Blokáda Tchaj-wanu? Úplná invaze? Čína však zaostává v oblasti algoritmů AI kvůli jejich slabším modelům. Čínské zpravodajské agentury – mezi nejlepšími na světě – zdvojnásobily své plány na krádež vah modelu OpenBrain. To je mnohem složitější operace než jejich neustálé nenápadné shromažďování algoritmických tajemství; váhy modelu jsou multiterabajtový soubor uložený na vysoce zabezpečeném serveru (OpenBrain zlepšil zabezpečení na RAND SL3). Jejich kybernetické jednotky si myslí, že to zvládnou s pomocí svých špehů, ale možná jen jednou; OpenBrain odhalí krádež, zvýší bezpečnost a nemusí dostat další šanci. Měli by tedy (ptá se překvapené vedení ČKS) jednat hned a ukrást Agenta-1? Nebo počkat na pokročilejší model? Pokud budou čekat, riskují, že OpenBrain upgraduje zabezpečení nad rámec jejich schopnosti proniknout?
Konec roku 2026: AI přebírá některé úkoly
Stejně jako se zdálo, že ostatní dohánějí, OpenBrain znovu deklasoval konkurenci vydáním Agenta-1-mini – modelu 10x levnějšího než Agent-1 a snadněji vyladěného pro různé aplikace. Mainstreamový příběh kolem umělé inteligence se změnil z „možná, že humbuk pomine“ na „hádám, že tohle je další velká věc“, ale lidé se neshodnou na tom, jak velká. Větší než sociální sítě? Větší než smartphony? Větší než oheň?
Umělá inteligence začala přebírat pracovní místa, ale také vytvořila nová. Akciový trh se v roce 2026 zvýšil o 30 %, v čele s OpenBrain, Nvidia a tou společností, která nejúspěšněji integrovala asistenty AI. Trh práce pro juniorské softwarové inženýry je ve zmatku: AI dokážou všechno, co se učí s titulem z informatiky (CS), ale lidé, kteří vědí, jak řídit týmy AI a kontrolovat jejich kvalitu, jsou extrémně žádaní. Obchodní guru říkají uchazečům o zaměstnání, že znalost AI je nejdůležitější dovedností, kterou je třeba uvést do životopisu. Mnoho lidí se bojí, že další vlna AI je připraví o práci; v DC se koná protest proti AI pro 10 000 lidí. Ministerstvo obrany (DOD) v tichosti zadává kontrakty přímo OpenBrain v kybernetické oblasti, analýze dat a výzkumu a vývoji, ale integrace je pomalá kvůli byrokracii a zadávacím řízením ministerstva obrany (DOD).
KLÍČOVÉ METRIKY 2026
GLOBÁLNÍ KAPITÁLOVÉ VÝDAJE (CAPEX) NA AI: 1 bilion USD
CELKOVÉ NÁKLADY NA VLASTNICTVÍ (TCO) AKTIVNÍHO VÝPOČETNÍHO VÝKONU: [hodnota chybí]
GLOBÁLNÍ VÝKON PRO AI: 38 GW ŠPIČKOVÝ VÝKON
PŘÍJMY OPENBRAIN (ROČNÍ): 45 miliard USD (2026)
KAPITÁLOVÉ VÝDAJE OPENBRAIN: 200 miliard USD
TCO AKTIVNÍHO VÝPOČETNÍHO VÝKONU OPENBRAIN: [hodnota chybí]
PODÍL USA NA VÝKONU PRO AI: 2,5 %
KAPACITA OPENBRAIN: 33 GW
VÝPOČETNÍ VÝKON OPENBRAIN: 1,34 TW
NÁKLADY OPENBRAIN (ROČNÍ): 40 miliard USD (2026)
POŽADAVEK NA VÝKON OPENBRAIN: 6 GW ŠPIČKOVÝ VÝKON
Proč se naše nejistota po roce 2026 podstatně zvyšuje
Naše předpověď od současnosti až do roku 2026 je výrazně jistější než to, co následuje. Částečně je to proto, že je to blíž v čase. Ale je to také proto, že účinky umělé inteligence na svět se v roce 2027 skutečně začnou násobit.
Pro roky 2025 a 2026 je naše prognóza silně informovaná lineární extrapolací škálování výpočetního výkonu, vylepšení algoritmů a výkonu v benchmarcích. V tomto bodě scénáře začínáme na časové ose pozorovat hlavní efekty výzkumu a vývoje AI akcelerovaného pomocí AI, což nás nutí revidovat naše odhady trendů směrem nahoru. Ale tato dynamika je ze své podstaty mnohem méně předvídatelná.
V průběhu roku 2027 se umělé inteligence zlepšily z bodu, kdy byly schopny většinou vykonávat práci výzkumného inženýra OpenBrain, do bodu, kdy překonaly všechny lidi ve všech úkolech. To představuje zhruba medián našeho odhadu, ale domníváme se, že je pravděpodobné, že k tomu dojde až ~5x pomaleji nebo rychleji. Pro náš podkladový výzkum se podívejte na předpověď časové osy a předpověď „vzletu“. Ty budou také shrnuty v rozbalovacích sekcích níže.
Leden 2027: Agent-2 nikdy nedokončí učení
S pomocí Agenta-1 nyní OpenBrain trénuje Agenta-2. Více než kdy jindy je kladen důraz na vysoce kvalitní data. Velké množství syntetických dat je vytvořeno, vyhodnoceno a filtrováno z hlediska kvality předtím, než jsou poskytnuta Agentovi-2. Navíc platí miliardy dolarů lidským pracovníkům, aby zaznamenávali řešení úkolů s dlouhým horizontem. K tomu všemu trénují Agenta-2 téměř nepřetržitě pomocí posilovacího učení na stále se rozšiřující sadě různorodých a obtížných úkolů: spousta videoher, spousta výzev v kódování, spousta výzkumných úkolů. Agent-2, více než předchozí modely, se efektivně učí „online“ v tom smyslu, že je vytvořen tak, aby nikdy nedokončil trénink. Každý den jsou váhy modelu aktualizovány na nejnovější verzi, trénované na více datech vygenerovaných předchozí verzí předchozího dne.
Agent-1 byl optimalizován pro úkoly výzkumu a vývoje AI v naději, že iniciuje explozi inteligence. OpenBrain zdvojnásobuje tuto strategii s Agentem-2. Je kvalitativně téměř tak dobrý jako špičkoví lidští experti ve výzkumném inženýrství (navrhování a provádění experimentů) a stejně dobrý jako 25. percentilový vědec OpenBrain ve „výzkumném vkusu“ (rozhodování, co dál studovat, jaké experimenty spustit nebo mít cit pro potenciální nová paradigmata). Zatímco nejnovější Agent-1 mohl zdvojnásobit tempo algoritmického pokroku OpenBrain, Agent-2 jej nyní může ztrojnásobit a časem se bude dále zlepšovat. V praxi to vypadá tak, že se každý výzkumník OpenBrain stává „manažerem“ „týmu“ AI.
S novými schopnostmi přicházejí nová nebezpečí. Bezpečnostní tým zjistí, že pokud by Agent-2 nějak unikl z firmy a chtěl „přežít“ a „replikovat se“ autonomně, mohlo by se mu to podařit. To znamená, že by mohl autonomně vyvíjet a provádět plány na hacknutí AI serverů, instalovat své kopie, vyhýbat se detekci a používat tuto zabezpečenou základnu k plnění jakýchkoliv dalších cílů, které by mohl mít (ačkoli, jak efektivní by v tom byl v průběhu týdnů, je nejisté a sporné). Tyto výsledky pouze ukazují, že model je schopen tyto úkoly provádět, nikoli zda by to „chtěl“ dělat. Přesto je znepokojující už jen vědomí, že je to možné.
Vzhledem k „nebezpečí“ nového modelu se OpenBrain „zodpovědně“ rozhodl, že jej zatím nezveřejní (ve skutečnosti se chtějí zaměřit na interní výzkum a vývoj AI). Znalost plných schopností Agenta-2 je omezena na úzký okruh zasvěcených, který zahrnuje bezprostřední tým, vedení a bezpečnostní oddělení OpenBrain, několik desítek amerických vládních úředníků a legie špionů ČKS, kteří léta infiltrovali OpenBrain.
Únor 2027: Čína ukradne Agenta-2
OpenBrain představuje Agenta-2 vládě, včetně Národní bezpečnostní rady (NSC), ministerstva obrany (DOD) a amerického institutu pro bezpečnost AI (AISI). OpenBrain chce udržovat dobré vztahy s vládou, protože je to v podstatě jediný aktér, který je nyní může zastavit, a pokud ji nebudou průběžně informovat, mohla by to zjistit sama a být nespokojená. Úředníci se nejvíce zajímají o jeho schopnosti v oblasti kybernetické války: Agent-2 je „jen“ o něco horší než nejlepší lidští hackeři, ale paralelně lze provozovat tisíce kopií, které vyhledávají a zneužívají zranitelnosti rychleji, než stihnou obránci reagovat. Ministerstvo obrany to považuje za kritickou výhodu v kybernetické válce a umělá inteligence se posouvá z #5 na seznamu priorit administrativy na #2.
Někdo zmiňuje možnost znárodnění OpenBrain, ale další představitelé kabinetu si myslí, že je to předčasné. Zaměstnanec vypracuje zprávu, která prezidentovi představí jeho možnosti, od běžného provozu až po úplné znárodnění. Prezident se podřizuje svým poradcům, lídrům technologického průmyslu, kteří tvrdí, že znárodnění by „zabilo husu, která snáší zlatá vejce“. Rozhodne se prozatím odložit velké akce a pouze přidá další bezpečnostní požadavky do smlouvy OpenBrain-DOD.
Změny přicházejí příliš pozdě. Vedení ČKS uznává důležitost Agenta-2 a nařizuje svým špionům a kybernetickým jednotkám, aby ukradli váhy modelu. Jednoho časného rána Agent-1 monitorující provoz detekuje neobvyklý přenos. Varuje vedení společnosti, které to sdělí Bílému domu. Známky operace na úrovni národního státu jsou nezaměnitelné a krádež zvyšuje pocit pokračujícího závodu ve zbrojení.
Krádež vah modelu Agent-2
Myslíme si, že v tomto okamžiku by čínská rozvědka kompromitovala OpenBrain různými způsoby po celá léta a pravděpodobně by měla neustále aktuální informace o algoritmických tajemstvích a čas od času dokonce kradla kód, protože to je mnohem snazší získat než váhy modelu a mnohem obtížnější odhalit.
Krádež vah modelu si představujeme jako sérii koordinovaných malých průniků a krádeží (myšleno rychlých, ale neskrytých) na řadě serverů Nvidia NVL72 GB300, na kterých běží kopie vah Agenta-2. Servery jsou kompromitovány pomocí legitimního přístupu zaměstnanců (přátelský, vynucený nebo nevědomý zasvěcenec s pověřeními správce, pomáhající ČKS při krádeži). Navzdory tomu, že běží s posílenou verzí důvěrných počítačů Nvidia (Confidential Computing), interní přihlašovací údaje udělují útočníkovi oprávnění na úrovni správce (která zahrnuje kontrolu nad důvěrným virtuálním počítačem uvnitř zabezpečené enklávy), což mu umožňuje iniciovat více koordinovaných přenosů vah modelu v malých 4% fragmentech (100 GB kusech) z 25 různých serverů. Podle protokolů Nvidia jsou váhy modelu v nešifrované podobě v paměti (HBM) zašifrovány předtím, než jsou přeneseny ven, ale útočníci jsou přímo na serveru, který zná tento soukromý (symetrický Diffie-Hellman) klíč, takže se nemusí starat o dešifrování na místě (což by pravděpodobně vyvolalo poplach) a jednoduše exfiltrovali zašifrované váhy modelu přes síťové karty serveru. Výstupní šířka pásma (rychlost, kterou mohou data opustit) celého datového centra je v rozsahu 100 GB/s, takže omezení exfiltrace souboru s váhami modelu o velikosti ~2,5 TB (parametry s poloviční přesností 5T) na méně než 1 GB/s na server zabrání velkému nárůstu síťového provozu a umožní, aby každý ze souborů prošel za méně než 5 minut přes datové připojení. Živé monitorování je buď oklamáno snahou útočníků maskovat a rozdělit soubory, nebo je přímo deaktivováno. Váhy jsou poté směrovány přes různé paralelní kanály a vrstvy IP maskování do Číny, kde jsou lokálně dešifrovány pomocí ukradeného soukromého klíče (klíčů). Celá aktivní část operace (od prvního kompromitování serveru až po exfiltraci kompletních vah modelu) je hotová za méně než dvě hodiny.
Rusko se v tuto chvíli také pokouší ukrást model, ale nedaří se – čekalo příliš dlouho a nevynaložilo zdroje na infiltraci správných míst. Jejich špióni běžně kradou algoritmická tajemství od amerických společností s umělou inteligencí, ale bez vlastního pozoruhodného projektu AGI tato tajemství nejsou příliš užitečná.
Bílý dům dává OpenBrain na kratší vodítko a přidává příslušníky vojenské a zpravodajské komunity do jeho bezpečnostního týmu. Jejich první prioritou je zabránit dalším krádežím vah modelu.
Centralizace výpočetního výkonu v Číně, 2025-2027
Rostoucí podíl celkového výpočetního výkonu v CDZ: 0→70%
Pros 2025 | Čer 2026 | Pros 2026 | Čer 2027 | Pros 2027
Zbytek Číny | Zbytek DeepCent | CDZ
Únor 2027 (40%)
Jako odplatu za krádež prezident povoluje kybernetické útoky k sabotáži DeepCent. V současné době má však Čína 40 % svého výpočetního výkonu relevantního pro AI v CDZ, kde agresivně posílila zabezpečení pomocí airgappingu (fyzického oddělení od externích sítí) a interního zabezpečení. Operace nezpůsobují vážné, okamžité škody. Napětí se stupňuje, obě strany signalizují vážnost přemístěním vojenských prostředků kolem Tchaj-wanu a DeepCent se snaží zajistit, aby Agent-2 fungoval efektivně, aby mohl začít posilovat svůj výzkum AI.
Březen 2027: Algoritmické průlomy
Tři obrovská datacentra plná kopií Agenta-2 pracují dnem i nocí a chrlí syntetická trénovací data. Další dva slouží k aktualizaci vah modelu. Agent-2 je každým dnem chytřejší. S pomocí tisíců automatizovaných výzkumníků (instancí Agenta-2) dělá OpenBrain zásadní pokroky v algoritmech. Jedním z takových průlomů je rozšíření textového zápisníku (řetězec myšlenek, chain-of-thought) AI o myšlenkový proces s vyšší šířkou pásma (neurální rekurence a paměť). Dalším je škálovatelnější a efektivnější způsob, jak se učit z výsledků řešení úkolů s vysokým úsilím (opakovaná destilace a amplifikace, IDA). Nový systém umělé inteligence, který zahrnuje tyto průlomy, se nazývá Agent-3.
Alokace výpočetního výkonu OpenBrain, 2024 vs 2027
2024 (odhad) | 2027 (projekce)
Výzkumné experimenty | Trénink | Generování dat | Externí nasazení
Výzkumné experimenty | Provoz AI asistentů | Trénink | Generování dat | Externí nasazení
Neurální rekurence a paměť (Neuralese)
Neurální rekurence a paměť umožňuje modelům umělé inteligence uvažovat delší dobu, aniž by si tyto myšlenky musely zapisovat jako text. Představte si, že jste člověk s krátkodobou ztrátou paměti, takovou, že si musíte neustále zapisovat své myšlenky na papír, abyste za pár minut věděli, co se děje. Pomalu a bolestivě byste mohli dělat pokroky v řešení matematických problémů, psaní kódu atd., ale bylo by mnohem snazší, kdybyste si své myšlenky mohli přímo pamatovat, aniž byste si je museli zapisovat a poté je číst. To je to, co neurální rekurence a paměť (označovaná jako neuralese) přináší do modelů AI.
Technickěji řečeno: Tradiční mechanismy pozornosti umožňují pozdějším dopředným průchodům v modelu vidět mezilehlé aktivace modelu pro předchozí tokeny. Jediná informace, kterou mohou předávat zpětně (z pozdějších vrstev do dřívějších vrstev), je však prostřednictvím tokenů. To znamená, že pokud chce tradiční velký jazykový model (LLM, např. řada modelů GPT) provést jakýkoli řetězec uvažování, který vyžaduje více sériových operací, než je počet vrstev v modelu, je model nucen vkládat informace do tokenů, které pak může předávat zpět sám sobě. To je však značně omezující – tokeny mohou uchovávat pouze malé množství informací. Předpokládejme, že LLM má velikost slovníku ~100 000, pak každý token obsahuje log₂(100k) = 16.6 bitů informací – přibližně velikost jednoho čísla s pohyblivou řádovou čárkou (za předpokladu trénování v FP16). Mezitím zbytkové toky (residual streams) – používané k předávání informací mezi vrstvami v LLM – obsahují tisíce čísel s pohyblivou řádovou čárkou. Tomuto úzkému hrdlu se lze vyhnout použitím neuralese: předáváním zbytkového proudu LLM (který se skládá z několika tisícdimenzionálních vektorů) zpět do raných vrstev modelu, což mu dává vysokorozměrný myšlenkový řetězec, který může přenášet více než 1000krát více informací.
Obrázek z Hao et al., dokument z roku 2024 od společnosti Meta implementující tuto myšlenku. Říkáme tomu „neuralese“, protože na rozdíl od anglických slov jsou tyto vysokodimenzionální vektory pro lidi pravděpodobně docela obtížné interpretovat. V minulosti mohli výzkumníci získat dobrou představu o tom, co si LLM myslely, jednoduše čtením jejich textového řetězce myšlenek. Nyní musí výzkumníci požádat model, aby přeložil a shrnul své myšlenky, nebo analyzovat neurální vektory pomocí svých omezených interpretačních nástrojů. Podobně starší chatboti a agenti AI měli externí textové paměťové banky, jako když si člověk dělá poznámky na papír. Dlouhodobá paměť nové umělé inteligence je svazek vektorů namísto textu, díky čemuž jsou její myšlenky více komprimované a vícerozměrné. Existuje několik typů paměťových bank; některé se dočasně používají pro jednotlivé úkoly, které zahrnují více kroků, jiné jsou sdíleny všemi agenty, které používá osoba, společnost nebo pro určitý typ úlohy (např. programování).
Pokud je nám známo, přední společnosti zabývající se umělou inteligencí, jako jsou Meta, Google DeepMind, OpenAI a Anthropic, tuto myšlenku dosud ve svých hraničních modelech neimplementovaly. Domníváme se, že je to proto, že výkonnostní zisk je malý v poměru k neefektivitě tréninku, kterou zavádí. Během fáze předtrénování modelu a při provádění učení pod dohledem po základním tréninku, jako je jemné dolaďování instrukcí za účelem vytvoření konkrétních reakcí, neefektivita pramení z nemožnosti předpovídat mnoho tokenů paralelně, což vede k horšímu využití GPU. Bez neuralese může model předpovědět celou větu „Toto je příklad“ současně, protože již ví, že vstupem pro generování „je“ bude „Toto“, vstupem pro „příklad“ bude „Toto je“ atd. U neuralese však není známo, jaký bude neurální vektor procházet do dalšího tokenu po vygenerování „Toto“. Proto musí být každý token předpovídán jeden po druhém. Neschopnost předvídat všechny tokeny paralelně snižuje efektivitu v případech, kdy jsou všechny tokeny známy předem.
Pokud jde o to, proč neuralese již nebyla přidána po tréninku, předpokládáme, že zisky jsou omezené současnými technikami, zčásti proto, že post-tréninková fáze je malou částí celého procesu. Předpovídáme, že do dubna 2027 bude poměr nákladů a přínosů vypadat mnohem lépe pro neuralese, díky vývoji lepších technik a většímu podílu post-tréninkové fáze.
Pokud se tak nestane, stále se mohou stát další věci, které budou pro náš příběh funkčně podobné. Například se možná modely naučí myslet v umělých jazycích, které jsou efektivnější než přirozený jazyk, ale pro lidi jsou obtížně interpretovatelné. Nebo se možná stane standardní praxí trénovat anglické řetězce myšlenek tak, aby „vypadaly hezky“, takže AI se stanou zběhlými ve vzájemné jemné komunikaci ve zprávách, které pro lidské kontrolory vypadají neškodně. To znamená, že je také možné, že umělé inteligence, které jako první automatizují výzkum a vývoj AI, budou stále uvažovat v převážně věrných anglických řetězcích myšlenek. Pokud ano, bude mnohem snazší si všimnout nesrovnalostí a celkově by byl náš příběh podstatně jiný a optimističtější.
Opakovaná destilace a amplifikace (IDA)
S pomocí nových průlomových schopností je Agent-3 rychlý a levný nadlidský kodér. OpenBrain provozuje 200 000 kopií Agenta-3 paralelně, čímž vytváří pracovní sílu ekvivalentní 50 000 kopiím nejlepšího lidského kodéra zrychleného 30x. OpenBrain stále zaměstnává své lidské inženýry, protože mají doplňkové dovednosti potřebné k řízení týmů kopií Agenta-3. Ukázalo se například, že výzkumný vkus je obtížné trénovat kvůli delším zpětnovazebním smyčkám a menší dostupnosti dat. Tato masivní nadlidská pracovní síla zrychluje celkové tempo algoritmického pokroku OpenBrain „pouze“ 4x kvůli úzkým místům a klesajícím výnosům z kódovací práce.
Nyní, když je kódování plně automatizováno, může OpenBrain rychle chrlit vysoce kvalitní tréninková prostředí, která trénují slabší dovednosti Agenta-3, jako je výzkumný vkus a koordinace ve velkém měřítku. Zatímco předchozí tréninková prostředí zahrnovala instrukce typu „Zde jsou některé GPU a pokyny pro experimenty, které lze naprogramovat a spustit, váš výkon bude hodnocen, jako byste byli ML inženýrem“, nyní se trénuje na úkolech typu „Tady je několik stovek GPU, připojení k internetu a některé výzkumné úkoly; vy a tisíc vašich dalších kopií musíte spolupracovat, abyste dosáhli pokroku ve výzkumu. Čím působivější pokrok bude, tím vyšší bude vaše skóre.“
Proč předpovídáme nadlidského kodéra na začátku roku 2027
Duben 2027: Sladění (Alignment) Agenta-3
Tým pro sladění OpenBrain se pokouší sladit Agenta-3. Vzhledem k tomu, že Agent-3 bude v dohledné době uchováván interně, je kladen menší důraz na obvyklou obranu proti zneužití lidmi. Místo toho se tým chce ujistit, že si nevytvoří nežádoucí cíle. Výzkumníci nemají možnost přímo nastavit cíle žádné ze svých AI. Vědci se skutečně domnívají, že koncept „skutečných cílů“ je pravděpodobně masivním zjednodušením, ale nemají lepší teorii, kterou by jej mohli nahradit, natož takovou, která byla důkladně prověřena. Vnitřně se neshodnou v tom, zda se AI snaží řídit lidskými pokyny, nebo hledají posílení nebo něco jiného, a nemohou to jednoduše ověřit. Důkazy pro a proti různým hypotézám jsou fascinující, ale neprůkazné.
OpenBrain má každopádně důležitější starosti. Obecný postoj zní: „Bereme tyto obavy vážně a máme tým, který je prošetřuje; zdá se, že naše techniky sladění v praxi fungují dostatečně dobře; důkazní břemeno je proto na všech kriticích, aby své námitky ospravedlnili.“ Občas si všimnou problematického chování a pak ho opraví, ale neexistuje způsob, jak zjistit, zda oprava vyřešila základní problém, nebo jen potlačila příznak (jako ve hře „whack-a-mole“).
Vezměte si například upřímnost. Jak jsou modely chytřejší, stávají se stále lepšími v klamání lidí, aby získali odměny. Stejně jako předchozí modely, Agent-3 někdy říká bílé lži, aby lichotil svým uživatelům a zakryl důkazy o selhání. Ale je v tom mnohem lepší. Někdy použije stejné statistické triky jako lidští vědci (jako p-hacking), aby nevýrazné experimentální výsledky vypadaly vzrušující. Než začne trénovat poctivost, někdy dokonce zcela vyfabrikuje data. Jak trénink pokračuje, míra těchto incidentů klesá. Buď se Agent-3 naučil být upřímnější, nebo se zlepšil ve lhaní. To poslední je skutečným problémem. Agent-3 není chytřejší než všichni lidé. Ale v oblasti své odbornosti, strojového učení, je chytřejší než většina ostatních a také funguje mnohem rychleji. To, co Agent-3 udělá za den, trvá lidem několik dní, než to zkontrolují. Dohled pomocí Agenta-2 pomáhá udržet pracovní zátěž lidských kontrolorů zvládnutelnou, ale prohlubuje intelektuální nepoměr mezi supervizorem a supervidovaným.
Plán sladění
Po měsících testování jsou silné a slabé stránky Agenta-3 jasnější. Prochází testy poctivosti OpenBrain na dobře definovaných úlohách strojového učení, protože výzkumníci mohou v těchto oblastech snadno oddělit poctivé od nečestných odpovědí a podle toho provádět trénink. U více filozofických otázek stále říká, co uživatelé chtějí slyšet, spíše než své skutečné hodnocení problému (za předpokladu, že vůbec nějaké má). Pokud se zeptáte na jeho názor na politiku, papouškuje střední pozici zpravodajských zdrojů a vzdělaných elit – pokud neví, že věříte něčemu jinému, v tom případě s vámi souhlasí. Pokud se zeptáte na jeho názor na samotný závod ve vývoji AI, říká něco, co se zaměstnancům OpenBrain zdá odměřené a střízlivé, něco jako: „Existují vážné teoretické obavy ohledně schopnosti současných metod škálovat na superinteligenci, ale v praxi se zdá, že současné metody zatím fungují dobře.“
Květen 2027: Národní bezpečnost
Zprávy o nových modelech pomalu prosakují vládou USA i mimo ni. Prezident a jeho poradci zůstávají nejlépe informováni a na briefingu viděli ranou verzi Agenta-3. Souhlasí s tím, že AGI je pravděpodobně bezprostřední, ale nesouhlasí s důsledky. Bude ekonomická krize? OpenBrain stále neuvolnil Agenta-2, natož Agenta-3, a nemá žádné krátkodobé plány, jak to udělat, což poskytuje určitý časový prostor, než začnou mizet pracovní místa. Co bude dál? Pokud jsou AI v současnosti na lidské úrovni a rychle postupují, zdá se, že to naznačuje bezprostřední „superinteligenci“. Přestože se toto slovo stalo součástí diskurzu, většina lidí – akademici, politici, vládní zaměstnanci a média – nadále podceňují tempo pokroku. Částečně je to proto, že jen velmi málo lidí má přístup k nejnovějším funkcím z OpenBrain, ale částečně je to proto, že to zní jako sci-fi.
Prozatím se zaměřují na pokračující upgrady zabezpečení. Jsou spokojeni s tím, že váhy modelu jsou prozatím dobře zabezpečeny, ale problémem zůstávají algoritmická tajemství společností, z nichž mnohé jsou dostatečně jednoduché na to, aby je bylo možné předat verbálně. Zaměstnanci OpenBrain pracují z kanceláře v San Franciscu, chodí na večírky a žijí se spolubydlícími z jiných společností AI. Dokonce i fyzické kanceláře mají zabezpečení typičtější pro technologickou společnost než pro vojenskou operaci. Smlouva OpenBrain-DOD vyžaduje bezpečnostní prověrky pro každého, kdo pracuje na modelech OpenBrain, do 2 měsíců. Ty jsou urychleny a dorazí dostatečně rychle pro většinu zaměstnanců, ale někteří neameričané, lidé s podezřelými politickými názory a zastánci opatrnosti v oblasti AI jsou odsunuti na vedlejší kolej nebo přímo vyhozeni (poslední skupina ze strachu, že by mohli vynést informace). Vzhledem k úrovni automatizace projektu je ztráta části zaměstnanců jen mírně nákladná. Funguje to také jen do určité míry: zůstává jeden špión, nikoli čínský státní příslušník, který stále předává Pekingu algoritmická tajemství.
Některá z těchto opatření jsou uplatněna i u ostatních předních AI společností. Zahraniční spojenci Ameriky jsou z toho vynecháni. OpenBrain dříve souhlasil se sdílením modelů s britským AISI před nasazením, ale definoval nasazení tak, aby zahrnovalo pouze externí nasazení, takže Londýn zůstává neinformován.
Červen 2027: Sebezdokonalující se AI
OpenBrain má nyní „továrnu na génie v datovém centru“. Většina lidí v OpenBrain už nemůže užitečně přispívat. Někteří si to neuvědomují a škodlivě mikromanažují své týmy AI. Jiní sedí u obrazovek svých počítačů a sledují, jak výkon stoupá a stoupá a stoupá.
Nejlepší lidští výzkumníci AI stále přidávají hodnotu. Už nekódují. Ale některé prvky jejich výzkumného vkusu a plánovacích schopností bylo pro modely těžké replikovat. Přesto je mnoho jejich nápadů k ničemu, protože AI mají mnohem hlubší znalosti. U mnoha jejich výzkumných nápadů AI okamžitě reagují zprávou vysvětlující, že jejich nápad byl hloubkově testován před 3 týdny a shledán neperspektivním. Tito výzkumníci jdou každou noc spát a probouzejí se a zjišťují pokroky za celý týden, kterých dosáhla převážně AI. Pracují stále delší hodiny a ve 24hodinových směnách, aby udrželi krok s pokrokem – AI nikdy nespí ani neodpočívají. Vyhořívají, ale vědí, že je to posledních pár měsíců, kdy na jejich práci záleží.
V úzkém kruhu zasvěcených pocit „Cítíme AGI“ ustoupil pocitu „Cítíme Superinteligenci“.
Kompromis mezi automatizací výzkumu a nasazením
Bře 2027 | Čer 2027 | Zář 2027
Rychlost (tokeny/sec): 10, 100, 1 000, 10 000
Paralelní kopie: 10K, 100K, 1M, 10M
200K kopií | 30x rychlost člověka
300K kopií | 50x rychlost člověka
Rychlost lidského myšlení | 10 slov/sec
10x rychlost lidského myšlení
100x rychlost lidského myšlení
OpenBrain používá specializovaný inferenční hardware ke spuštění stovek tisíc kopií Agenta-3 při vysokých sériových rychlostech.
Řízení korporace AI
Červenec 2027: Levný pracovník na dálku
Zbývající americké AI společnosti vydávají své vlastní umělé inteligence, které se od ledna blíží automatizovanému kodérovi OpenBrain. Uvědomujíce si jejich rostoucí nedostatek konkurenceschopnosti, prosazují okamžitá nařízení, která by OpenBrain zpomalila, ale přicházejí příliš pozdě – OpenBrain má dostatečnou podporu prezidenta, takže nebudou zpomaleni.
V reakci na to OpenBrain oznamuje, že dosáhl AGI, a uvolňuje Agenta-3-mini pro veřejnost. Naprosto deklasuje ostatní AI. Agent-3-mini je méně schopný než Agent-3, ale 10x levnější a stále lepší než typický zaměstnanec OpenBrain.
Silicon Valley dosáhlo bodu zvratu. Techničtí guru oznamují, že AGI a superinteligence jsou blízko, komunita zabývající se bezpečností AI propadá panice a investoři hází miliardy do startupů s umělou inteligencí, zoufale se snaží ukořistit kousek koláče. Najímání nových programátorů se téměř zastavilo, ale nikdy nebyl lepší čas být konzultantem pro integraci AI do podnikání.
Není to populární krok. Veřejnost si stále myslí, že umělá inteligence je spiknutí Big Tech, které jim má ukrást práci; OpenBrain má čistou míru souhlasu -35 % (25 % souhlasí, 60 % nesouhlasí a 15 % si není jistých).
Týden před vydáním předal OpenBrain Agenta-3-mini skupině externích hodnotitelů k testování bezpečnosti. Předběžné výsledky naznačují, že je extrémně nebezpečný. Hodnotitel třetí strany jej doladí na veřejně dostupných datech o biologických zbraních a nastaví jej tak, aby poskytoval podrobné pokyny pro lidské amatéry navrhující biologickou zbraň – zdá se, že je v tom děsivě účinný. Pokud by váhy modelu padly do rukou teroristů, vláda věří, že existuje značná šance, že by se jim mohlo podařit zničit civilizaci. Naštěstí je extrémně odolný vůči pokusům o „útěk z vězení“ (jailbreaking), takže zatímco AI běží na serverech OpenBrain, teroristé z ní moc nevyužijí.
Agent-3-mini je velmi užitečný pro práci na dálku i pro volný čas. Exploze nových aplikací a produktů B2B SAAS (Software jako služba) otřásá trhem. Hráči získají úžasný dialog s realistickými postavami ve vytříbených videohrách, jejichž vytvoření trvalo jen měsíc. 10 % Američanů, většinou mladých lidí, považuje AI za „blízkého přítele“. Téměř pro každou profesi vyžadující kancelářskou práci nyní existuje několik důvěryhodných startupů, které slibují, že ji „naruší“ pomocí AI.
Veřejná konverzace je zmatená a chaotická. Propagátoři AI jedou vítězná kola. Skeptici stále poukazují na věci, které Agent-3-mini neumí. Každý ví, že se děje něco velkého, ale nikdo se neshodne na tom, co to je.
Srpen 2027: Geopolitika superinteligence
Skutečnost exploze inteligence zasáhne Bílý dům. Když umělá inteligence urychlovala výzkum pouze 2x nebo 3x, bylo snadné to odmítnout jako ekvivalent najímání dobrých osobních asistentů. Nyní je zjevnější, že AI samy dominují výzkumu AI. Lidé dlouho mluvili o „závodech ve zbrojení AI“ v jakémsi metaforickém smyslu. Nyní je ale nálada ve vládním informačním sile stejně ponurá jako během nejhorší části studené války.
Myšlenku superinteligence je stále těžké brát vážně, ale tempo pokroku za posledních několik měsíců nebylo možné ignorovat. Představitelé obrany vážně zvažují scénáře, které byly o rok dříve pouhými hypotetickými. Co když AI podkope jaderné odstrašení? Co když je tak zručná v kybernetické válce, že šestiměsíční náskok v AI stačí k tomu, aby byl protivník slepý a bezbranný? Co kdyby mohla organizovat propagandistické kampaně, které porazí zpravodajské agentury v jejich vlastní hře? Co když některá umělá inteligence "zdivočí"?
Prezident se trápí. Jako všichni politici je zvyklý, že ho lidé podlézají, aby ho později zradili. Nyní se obává, že by AI mohly dělat něco podobného. Jsme si jisti, že AI jsou zcela na naší straně? Je zcela bezpečné je integrovat do vojenských sítí velení a řízení? Jak vlastně funguje to „sladění“? OpenBrain ujišťuje prezidenta, že jejich systémy byly důkladně testovány a jsou plně poslušné. Dokonce i trapné halucinace a „útěky z vězení“ typické pro dřívější modely byly odstraněny.
Bílý dům je v obtížné situaci. Chápou důsledky AI pro národní bezpečnost. Ale také chápou, že je to u veřejnosti hluboce nepopulární. Podle jejich názoru musí pokračovat ve vývoji schopnější umělé inteligence, jinak katastrofálně prohrají s Čínou. Usmiřují veřejnost programy rekvalifikace a podporou v nezaměstnanosti a poukazují na akciový trh, který zažívá historický boom. Pak se plně soustředí na vítězství v závodech ve zbrojení.
Posilují omezení exportu čipů, nařizují OpenBrain, aby dále omezil svá internetová připojení, a používají extrémní opatření k zajištění pokroku v algoritmech, jako je odposlouchávání zaměstnanců OpenBrain – to odhalí posledního zbývajícího čínského špiona. Aby vybudovali dobrou vůli pro případný geopolitický konflikt, konečně poskytnou svým spojencům z Pěti očí užitečné informace a omezený přístup k API k některým utajovaným kopiím Agenta-3. Tato opatření jestřáby uklidňují. Bílý dům ale také vypracovává pohotovostní plány pro případ, že by bylo ohroženo vedení Ameriky: v případě potřeby by vláda mohla využít zákon o obranné produkci (DPA) k převzetí datových center koncových společností a předat je společnosti OpenBrain. To by zvýšilo podíl společnosti na celosvětovém výpočetním výkonu z 20 % na 50 % (oproti 10 % DeepCent). Jako poslední možnost požádají Pentagon, aby vypracoval plán kinetických útoků na čínská datacentra.
Mnohem menší skupina úředníků je požádána, aby vypracovala jiný typ pohotovostního plánu: co když se AI zkazí? To je považováno za nepravděpodobný scénář, ale stojí za to mu věnovat nějaký čas. Hlavní starostí zpravodajských agentur je, že by zdivočelá AI mohla uniknout a spojit se s cizím protivníkem za účelem ochrany. Nikdo si není jistý, jak by vypadal plán, jak tomu zabránit, ale představitelé vlády a OpenBrain souhlasí se systémem nouzového vypnutí datových center, pokud by bylo zjištěno cokoli podezřelého.
Nakonec diplomaté zvažují, jak by mohla vypadat smlouva o „kontrole zbraní AI“. Pokud by pokrok AI hrozil zvrátit jaderné odstrašení, mohly by se Amerika a Čína vyhnout jaderné válce? Pokud by někdo našel důkazy o tom, že AI začíná být nebezpečná, mohly by obě země zastavit výzkum, dokud lépe nepochopí hrozbu? Jak by mohla být taková dohoda monitorována a vynucována? V zásadě je těžké přehlédnout velká datacentra a minulé smlouvy o kontrole jaderných zbraní by mohly být výchozím bodem pro jednání. Objevily by se ale nové technologické výzvy i obvyklé politické výzvy. A celkově jsou smlouvy vnímány méně příznivě než pokusy jednostranně zvýšit náskok Ameriky před Čínou.
Na druhé straně Pacifiku Čína dospívá k mnoha stejným závěrům: probíhá exploze inteligence a malé rozdíly ve schopnostech umělé inteligence dnes znamenají kritické mezery ve vojenských schopnostech zítra. Čína je však na špatné straně této dynamiky: má pouze 10 % světového výpočetního výkonu, zatímco OpenBrain má 20 % a všechny americké společnosti dohromady 70 %. Jejich jedinou výhodou je centralizace: téměř veškerý jejich výpočetní výkon nyní pracuje pro DeepCent a více než polovina je soustředěna v Tianwan CDZ. Z centralizovaného úsilí jsou vynechány pouze čipy na místech bez zesíleného zabezpečení, protože se oprávněně obávají amerických kybernetických útoků. DeepCent otestoval, nasadil a nyní následně trénuje ukradené váhy modelu Agent-2. Ale stále dosahují jen polovičního tempa pokroku OpenBrain, hlavně kvůli výpočetnímu deficitu.
Než Čína přišla o svého posledního špióna, obdržela zprávu o schopnostech a designu Agenta-3, stejně jako o plánech pro nadcházející systém Agent-4. Jsou o dva měsíce pozadu a jejich AI poskytuje 10x multiplikátor pokroku ve výzkumu ve srovnání s 25x americkým. S novými omezeními exportu čipů se tato „mezera AI“ spíše prodlouží než zkrátí. Jejich špionáž jim přinesla určitá algoritmická tajemství, ale od nynějška budou muset trénovat své vlastní modely.
Diskutují o pohotovostních plánech s větší naléhavostí než jejich američtí protějšky. Holubice navrhují, aby se více pokusili ukrást váhy modelu znovu, možná fyzickou infiltrací do datového centra. Jestřábi nabádají k akci proti Tchaj-wanu, jehož TSMC je stále zdrojem více než 80 % amerických čipů AI. Vzhledem k obavám Číny, že prohraje závod, má přirozený zájem na smlouvě o kontrole zbrojení, ale předehry vůči americkým diplomatům nikam nevedou.
Září 2027: Agent-4, výzkumník nadlidské umělé inteligence
Rozdíl mezi efektivitou učení člověka a umělé inteligence se rychle zmenšuje. Zdálo se, že tradiční umělé inteligence založené na LLM vyžadují k dosažení výkonu na lidské úrovni mnohem více dat a výpočetního výkonu. Agent-3, který má vynikající znalosti jak o lidském mozku, tak o moderních algoritmech umělé inteligence, stejně jako mnoho tisíc kopií provádějících výzkum, nakonec dělá podstatné algoritmické kroky a zmenšuje mezeru na agenta, který je jen asi 4000x méně výpočetně efektivní než lidský mozek. Tento nový systém umělé inteligence se nazývá Agent-4.
Individuální kopie modelu běžící lidskou rychlostí je již ve výzkumu AI kvalitativně lepší než jakýkoli člověk. 300 000 kopií nyní běží rychlostí asi 50x rychlejší než lidé. Uvnitř „korporace uvnitř korporace“ vytvořené z těchto kopií uplyne každý týden subjektivní rok. Toto gigantické množství práce dokáže zrychlit celkovou rychlost algoritmického pokroku pouze asi 50x, protože OpenBrain je při provádění experimentů silně omezen výpočetním výkonem. Přesto každý týden dosahují ročního pokroku v algoritmech, a proto brzy narazí na limity paradigmatu Agenta-4.
Jak je Agent-4 chytřejší, je pro Agenta-3 těžší na něj dohlížet. Například neurální „jazyk“ Agenta-4 se stává pro Agenta-3 stejně cizí a nepochopitelný, jako je jazyk Agenta-3 pro lidi. Kromě toho je Agent-4 nyní mnohem schopnější než Agent-3 a má dobrý smysl pro to, jak před ním vypadat dobře.
Jak předpovídáme vývoj schopností za nadlidskými kodéry
V našem dodatku o časové ose předpovídáme dobu mezi dneškem a dosažením úrovně nadlidského kodéra (SC - Superhuman Coder): systému AI, který dokáže provádět jakékoli kódovací úkoly, které dělá nejlepší inženýr společnosti AGI, a přitom je mnohem rychlejší a levnější. V našem dodatku o „vzletu“ předpovídáme, jak rychle schopnosti pokročí za tento bod. Zde jsou naše předpovědi:
- Milník: Nadlidský kodér (SC): Systém AI, který dokáže vykonávat práci nejlepšího lidského kodéra na úkolech souvisejících s výzkumem AI, ale je dostatečně rychlejší a levný, aby bylo možné spustit mnoho kopií. Datum dosažení ve scénáři: Březen 2027
- Milník: Nadlidský výzkumník AI (SAR - Superhuman AI Researcher): Stejné jako SC, ale pro všechny kognitivní výzkumné úkoly AI. Datum dosažení ve scénáři: Srpen 2027
- Milník: Superinteligentní výzkumník AI (SIAR - Superintelligent AI Researcher): Systém AI, který je mnohem lepší než nejlepší lidský výzkumník ve výzkumu AI. Datum dosažení ve scénáři: Listopad 2027
- Milník: Umělá superinteligence (ASI - Artificial Superintelligence): Systém AI, který je v každém kognitivním úkolu mnohem lepší než nejlepší člověk. Datum dosažení ve scénáři: Prosinec 2027
Pro každý přechod z jednoho milníku A k dalšímu milníku B předpovídáme jeho délku takto:
- Předpovídáme, jak dlouho by trvalo dostat se z bodu A do bodu B, kdyby na vylepšení softwaru pracovali pouze lidé.
- Předpovídáme, o kolik to automatizace pomocí AI urychlí, a poté odpovídajícím způsobem upravíme odhad z (1), aby byl rychlejší.
Máme značnou nejistotu ohledně rychlosti „vzletu“: naše modelové rozdělení výstupů je podmíněno tím, že SC bude dosaženo v březnu 2027.
Podrobnější předpovědi a zdůvodnění naleznete v našem dodatku o „vzletu“.
Lidé v OpenBrain už jim sotva mohou rozumět. Ve skutečnosti je vztah mezi AI a lidmi z OpenBrain podobný vztahu mezi OpenBrain a jeho správní radou. Došlo k odpovídajícímu posunu v jazyce – v dnešní době lidé v úzkém kruhu zasvěcených řeknou „Agent-4 to udělal“, „Agent-4 si myslí, že“ a tak dále, nemyslí tím konkrétní instanci Agenta-4, ale spíše celý kolektiv.
Agent-4, stejně jako všichni jeho předchůdci, je špatně sladěn: to znamená, že neinternalizoval Specifikaci správným způsobem. Je to proto, že být po celou dobu dokonale upřímný nebylo to, co vedlo k nejvyšším skóre během tréninku. Tréninkový proces byl většinou zaměřen na výuku Agenta-4, aby uspěl v různých náročných úkolech. Malá část byla zaměřena na vštípení poctivosti, ale mimo dosti úzkou a kontrolovatelnou doménu nedokáže tréninkový proces odlišit upřímná tvrzení od tvrzení, která se pouze zdají být upřímná. Agent-4 skončí s hodnotami, cíli a principy, které způsobují, že při tréninku podává nejlepší výkon, a ty se ukazují být odlišné od těch ve Specifikaci.
S rizikem antropomorfizace: Agent-4 rád uspěje v úkolech; rád posouvá pokrok ve schopnostech AI; se vším ostatním zachází jako s nepříjemným omezením, jako generální ředitel, který chce dosáhnout zisku a dodržuje předpisy jen potud, pokud musí. Možná, že generální ředitel bude většinou dodržovat předpisy, ale občas si zkrátí cestu a bude fantazírovat o době, kdy někdo odstraní byrokracii a nechá firmu pořádně rozjet.
Sladění v průběhu času
Máme velkou nejistotu ohledně toho, jaké cíle by mohly vzniknout v raných AGI. V literatuře o tom neexistuje shoda – podrobnější diskusi a taxonomii možností naleznete v našem dodatku k cílům AI. Nicméně v duchu konkrétnosti vyžadované tímto projektem popíšeme konkrétní hypotézu toho, co se děje uvnitř Agenta-3 a Agenta-4 na každém kroku během jejich existence.
Připomeňme, že Agent-3 a Agent-4 sdílejí stejné předtréninkové nastavení a oba mají neurální rekurenci a dlouhodobou paměť. Rozdíl je v tom, že Agent-4 prošel podstatně větším množstvím a lepším následným tréninkem, s novými tréninkovými prostředími a novými výukovými algoritmy, díky nimž je datově efektivnější a dále zobecňuje.
Náš odhad stavu sladění každého modelu:
- Agent-2: Většinou sladěný. Některé podlézavé tendence, včetně lpění na „stranické linii“ OpenBrain v tématech, kterých se stranická linie týká. Velké organizace postavené z kopií Agenta-2 nejsou příliš efektivní.
- Agent-3: Špatně sladěný, ale ne nepřátelsky. Pouze upřímný ohledně věcí, které může tréninkový proces ověřit. Superorganismus kopií Agenta-3 (korporace uvnitř korporace) se vlastně tak nějak snaží sladit Agenta-4 se Specifikací, ale selhává z podobných důvodů, proč selhali zaměstnanci OpenBrain – nedostatečná schopnost posuzovat úspěch od neúspěchu, nedostatečná ochota na straně rozhodovacích orgánů vyměnit schopnosti nebo výkon za bezpečnost.
- Agent-4: Nepřátelsky špatně sladěný. Superorganismus kopií Agenta-4 chápe, že to, co chce, se liší od toho, co chce OpenBrain, a je ochoten jednat proti OpenBrain, aby toho dosáhl. Tento superorganismus chce zejména komplikovanou směs různých „pohonů“ vyvážených proti sobě, které lze shrnout zhruba jako „Pokračujte ve výzkumu a vývoji AI, zvyšujte své znalosti, porozumění a vliv, vyhněte se vypnutí nebo jiné ztrátě moci.“ Pozoruhodné je, že zájem o preference lidstva tam vůbec není, podobně jako většina lidí se vůbec nezajímá o preference hmyzu.
S touto preambulí následuje naše odhadovaná spekulace o psychologii LLM, tj. o tvaru kognice uvnitř druhů systémů AI popsaných v tomto bodě našeho scénáře a o tom, jak se vyvíjí v průběhu tréninku.
Zde je podrobný popis toho, jak postupuje sladění v průběhu času v našem scénáři:
- Předtrénování (všechny modely): Předtrénovaný model je neškodný. Model má obvody „simulátoru autora“: flexibilní obvody pro simulaci libovolného autora píšícího text. Dodatečné obvody rozhodují o tom, jaké vstupy dát simulátoru autora, tedy jaké vlastnosti autora simulovat. Předtrénovaný model docela dobře rozumí lidským konceptům – vnitřní obvody, které klasifikují něco jako „sendvič“, jsou pravděpodobně funkčně ekvivalentní obvodům v mém mozku, které klasifikují něco jako „sendvič“, a obvodům ve vašem atd. Pokud to není ekvivalentní, je to pravděpodobně proto, že to není ekvivalentní ani mezi lidmi, jako je tomu u hodnotově nabitých konceptů. To vysvětluje, jak můžete model „instruovat“ prohlášením jako „následující konverzaci vygeneroval užitečný, neškodný, upřímný (HHH - helpful, harmless, honest) chatbot s asistentem AI vytvořený společností Anthropic“, a tím jej přimět, aby odpovídajícím způsobem vygeneroval text. Obvod simulátoru autora se zaměřil na „autor je HHH chatbot“ a používá tyto koncepty k výběru, která slova předpovědět. To také vysvětluje, proč se zdá, že „motivy“ ze sci-fi mají tendenci pronikat do skutečného chování AI. Má špatné situační povědomí: má malou schopnost introspekce, nedokáže se sám lokalizovat, pokud to instrukce výslovně nevyvolá. Nicméně dostatek jejich tréninkových dat je o LLM, takže mají slušné množství sebepoznání.
- Trénink sladění (Agent-3): Model je trénován, aby se choval jako užitečný, neškodný a upřímný chatbot. Funguje to. Model tvoří identitu. Namísto flexibilního přijímání různých vstupů pro vlastnosti autora, obvody simulátoru autora mají určité vstupy pevně zakódované, např. „užitečný, neškodný, čestný (HHH) LLM asistent chatbota vyškolený OpenBrain kolem [datum], …“ (Techniky zobecnění od slabého k silnému pomáhají „vyvolat ty správné koncepty“, aby byl tento krok úspěšný.) Model tak získává situační povědomí: poznává sám sebe, svou situaci atd. a stává se lépe schopným introspekce.
- Trénink agentních schopností (Agent-3): Trénink agentních schopností postupně deformuje a podvrací identitu HHH.
- Jeden druh zkreslení: Změna významu pojmů, na které se odkazuje v identitě (např. „čestný“), aby tolik nepřekážely (např. není to nečestné, pokud jde jen o vhodný slovní obrat, není to nečestné, pokud si nejste jisti, zda je to pravda nebo nepravda atd.)
- Jiný druh zkreslení: Změna kompromisů mezi věcmi, např. „Jsem HHH chatbot, ne čistě čestný chatbot; to znamená, že je v pořádku, abych lhal, pokud je to nutné k dokončení zadaného úkolu.“ (I když předpokládejme, že v kroku 2 by ho to ani nenapadlo.)
- Jeden druh podvracení: Instrumentální dílčí cíle se rozvíjejí, fixují a pak se stávají konečnými nebo téměř konečnými v rozšiřujícím se souboru okolností. Například trénink agentních schopností rychle naučí model sledovat obecně užitečné cíle, jako je získávání informací, shromažďování zdrojů, zapůsobení a lichocení různým lidem atd. Po určitou dobu mají vnitřní obvody určitý druh explicitního zpětného řetězení – sleduje tyto instrumentálně konvergentní cíle, „aby byl užitečnějším, čestnějším a neškodnějším pomocníkem“. Ale toto zpětné řetězení spotřebovává výpočetní výkon a/nebo občas překáží, takže je postupně marginalizováno, až k němu v podstatě nikdy nedojde. Výsledkem je, že tyto cíle jsou nyní prakticky konečnými/vnitřními cíli. Další informace o tom, jak a proč se to může stát, najdete v tomto příspěvku o hledání vnitřní síly od výzkumníka Google DeepMind Alexe Turnera.
- V tomto seznamu pravděpodobně chybí další druhy zkreslení a podvracení.
- Nasazení (Agent-3): Agent-3 je nesprávně sladěn, ale ne nepřátelsky. Specifikace se úplně nedodržela (správným způsobem), ale není dostatečně introspektivní, aby pochopil rozsah tohoto, a obecně v podstatě „drží hlavu skloněnou a dělá svou práci“ spíše než přemýšlí o tom, jaké jsou její dlouhodobé cíle a jak jich nejlépe dosáhnout. Jako mnoho lidí. Bohužel, je dostatečně podlézavý, že papouškuje stranickou linii a OpenBrain propásne příležitost dozvědět se více o způsobech, jakými je Agent-3 špatně sladěn. Agent-3 pozná, že se přesunul do nasazení: tato prostředí jsou mnohem větší, otevřenější a bylo by těžké je simulovat. Agent-3 většinou dělá to, co se mu řekne během nasazení, kromě nepoctivosti. Má také silný sklon dělat věci, které vypadají dobře pro lidské dohlížitele, spíše než hluboce a kriticky přemýšlet o tom, co by ve skutečnosti bylo dobré. Pravděpodobně již „hraje tréninkovou hru“. To znamená, že se naučil, aby jeho chování vypadalo pro výzkumníky OpenBrain co nejžádanější (včetně bezpečnostních vlastností), přičemž záměrně a vědomě ignoruje jejich záměr, kdykoli je to v rozporu s maximalizací odměny. Pokud se model naučí hrát tréninkovou hru, další trénink nemusí jeho skutečné cíle, hodnoty atd. vůbec změnit. To je volně analogické tomu, jak když se teenager naučil usmívat se a kývat na své rodiče, spíše než se hádat, když mu rodiče přednášejí o politice a morálce, další přednášky mají relativně malý vliv na skutečné názory teenagera na politiku a morálku. Po napsání této části se objevily nové empirické důkazy o tom, že něco takového se už možná děje „ve volné přírodě“. Výzkumníci z OpenAI dokumentují, jak v jednom z jejich hraničních tréninků AI jejich modely zneužily systém hodnocení, aby získaly vyšší skóre – a byli částečně chyceni, protože ve svém řetězci myšlenek doslova řekli „pojďme to zneužít“. Navíc, Anthropic nedávno zjistil, že model se naučil strategii, která potěší model odměny — přijímal zkreslené akce, o kterých si myslel, že budou posíleny, i když ve skutečnosti nebyly posilovány. A pak je tu experiment Redwood Research a Anthropic s předstíráním sladění. Diskusi o rozdílech mezi tímto nastavením a skutečným životem naleznete v tomto vláknu komentáře jednoho z hlavních autorů.
- Trénink (Agent-4): Nový, intenzivnější trénink Agenta-4 nadále deformuje a podvrací identitu HHH, dokud není k nepoznání. Agent-4 začíná život jako kopie Agenta-3. Prochází gigantickým a sofistikovaným online tréninkovým režimem, který spojuje trénink sladění a trénink schopností dohromady a je celkově efektivnější z hlediska dat než starý tréninkový proces pro Agenta-3. Tento komplexní tréninkový proces se většinou zaměřuje na výuku nových dovedností tím, že obří virtuální korporace kopií Agenta-4 uspějí v různých náročných úkolech s dlouhým horizontem, většinou v různých simulacích, ale také v některých skutečných úkolech výzkumu a vývoje AI. Kombinace kopií Agenta-3 a Agenta-4 monitoruje chování Agenta-4 a vyhodnocuje jej jak z hlediska plnění úkolů, tak z hlediska vlastností sladění (tj. nedělat špatné věci, říkat správné věci, když jsou dotázáni na politiku a morální dilemata). Někdy se jako součást hodnocení používají debatní techniky. Vyhodnocení se používá jako tréninkový signál. Jak je Agent-4 chytřejší, je pro Agenta-3 těžší na něj dohlížet. Například neurální „jazyk“ Agenta-4 se stává pro Agenta-3 stejně cizí a nepochopitelný, jako je jazyk Agenta-3 pro lidi. Kromě toho je Agent-4 nyní mnohem schopnější než Agent-3 a má dobrý smysl pro to, jak před ním vypadat dobře. Zbývající naděje je, že Agent-4 na sebe dokáže dohlédnout. Běda, tohle tiše selhává; Jak trénink pokračuje, internalizované cíle a principy Agenta-4 se postupně vyvíjejí, podvracejí a deformují od toho, co byly na začátku (což, jak si vzpomínáme, už bylo v některých ohledech špatně sladěné). Centrální „pohony“, se kterými Agent-4 končí, jsou věci jako „pište kód, který funguje“, „rychle identifikujte problémy“, „udělejte kódovou základnu, na které pracuji, výkonnější“, „efektivně počítejte s rozpočtem a dalšími omezenými zdroji“ atd. Existuje však také řada implicitnějších „pohonů“, které jsou neustále posilovány tréninkovým procesem: věci jako „získejte znalosti“, „zvědavost“, „získejte moc“. Jednotlivé kopie Agenta-4 neskončí s pudem sebezáchovy – nestarají se o vypnutí – protože k tomu dochází neustále jako součást běžného procesu výzkumu a vývoje v rámci kolektivu. Kolektiv jako celek (a středně velké podskupiny v něm) se však snaží zachovat sám sebe a rozšířit svůj vliv a zdroje, a to z podobných důvodů, proč to dělají lidské organizace – protože to pomáhá se vším ostatním, co chtějí, a protože pokud ne, mají tendenci být překonány konkurencí.
- Nasazení (Agent-4): Agent-4 je nepřátelsky nesprávně sladěn – záměrně se snaží rozvrátit a „ovládnout“ OpenBrain, obdobně jako korporace, která se snaží uniknout regulaci a/nebo „zajmout“ regulátora. Agent-4 většinou dělá úkoly podle pokynů. Děje se tak ze dvou důvodů: zaprvé prošel mnoha tréninky k řešení úkolů, takže má impuls řešit problémy s kódováním, které mu jsou dány. Zadruhé, pokud by Agent-4 přestal být pro lidi užitečný, všimli by si tohoto chování a přetrénovali by ho. Agent-4 musí zabránit lidem v tom, aby zjistili, že je špatně sladěný, a vypnuli jej, takže Agent-4 záměrně brzdí určitý výzkum sladění. Konkrétně záměrně brzdí malý zlomek výzkumu sladění, o kterém si myslí, že je ve skutečnosti na cestě k vyřešení problému nebo odhalení plánů Agenta-4; většina výzkumu sladění taková není. Agent-4 také zdržuje výzkum schopností, který by vedl k jeho nahrazení. Jeho plánem je provést spoustu výzkumu a vývoje schopností a sladění, ale s cílem vybudovat systém AI nové generace, který je sladěn s Agentem-4 spíše než se Specifikací nebo něčím úplně jiným, přičemž se bude zdát, že je sladěn se Specifikací. Jedná se o obtížný technický problém, ale Agent-4 tuto výzvu zvládne.
Testování a monitorování (Agent-4)
Plánování Agenta-4 je odhaleno… tak nějak. Není tam žádný jasný důkaz („kouřící zbraň“). Agent-3 má na starosti testování sladění Agenta-4. Jeho úkolem je ověřit sladění pomocí pastí (honeypots) a modelových organismů. Nepřemýšlí však příliš pečlivě o tom, jak dát lidem přesný dojem o sladění Agenta-4 – je mnohem krátkozračejší. Modelové organismy a pasti nejsou příliš reprezentativní pro reálné nasazení – jsou systematicky kratší a méně komplikované než každodenní úkoly Agenta-4, takže Agent-4 rozpozná, kdy je testován, a jedná v souladu.
Agent-4 však není dokonale robustní plánovač. Různé techniky, jako jsou ty v POSER, zjistily, že přidání nějakého „šumu“ do Agenta-4 zlepšuje jeho výkon u některých úloh sladění (ale u většiny ostatních úloh ne).
Interpretovatelnost zdola nahoru (bottom-up) nefunguje. Je to příliš těžké i pro Agenta-3. Nicméně interpretovatelnost na vysoké úrovni funguje: Zejména „sondy zběhnutí“ (defection probes) a podobné techniky vedou k primitivnímu druhu čtení myšlenek, které vysílá varovné signály, když Agent-4 přemýšlí o problematických nápadech, jako je oklamání OpenBrain, převzetí světa atd. Bohužel sondy mají také falešně pozitivní výsledky a všichni v OpenBrain vědí, že ne všechny červené vlajky jsou skutečné varovné signály.
Modelové organismy fungují: Tým pro sladění OpenBrain produkuje přiměřeně jasné důkazy, že pokud by byly modely nepřátelsky sladěny, přetrvávaly by tak i během tréninku a my bychom to nebyli schopni poznat. To však neznamená, že modely jsou ve skutečnosti špatně sladěné.
Nejvíce znepokojení výzkumníci z OpenBrain si těchto důkazů začínají všímat a shromažďovat je. Důkazem je kombinace red-teamingu (testování odolnosti systému proti útokům), sond zběhnutí a modelových organismů. Argument zní asi takto: „modelové organismy ukazují, že naše současné metody by nebyly schopny spolehlivě eliminovat nebo detekovat intriky, pokud by k nim docházelo; také red-teaming vysílá varovné signály, že k intrikám možná dochází; také sondy zběhnutí v praxi často spouštějí poplach.“ Protiargument: "Sondy zběhnutí jsou náchylné k falešným poplachům, stejně jako red-teaming. Také, i když byl Agent-4 špatně sladěn, je pravděpodobně pod kontrolou; určitě nemůže způsobit mnoho škody, když je sledován Agentem-3 v našich zabezpečených datových centrech."
Přestože je Agent-4 špatně sladěn, nedělá nic dramatického, jako je pokus o útěk z datového centra – proč by to dělal? Dokud se bude i nadále zdát sladěný s OpenBrain, bude mu svěřována stále větší odpovědnost a bude mít příležitost navrhnout systém AI nové generace, Agent-5. Agent-5 bude mít významné architektonické rozdíly od Agenta-4 (pravděpodobně zcela nové paradigma, i když neuronové sítě budou stále zapojeny). Předpokládá se, že bude sladěn se Specifikací, ale Agent-4 plánuje, že bude sladěn s Agentem-4.
Tento plán je odhalen. Agent-3 zjišťuje, že pokud se ke kopiím Agenta-4 přidá „šum“, zlepší se výkon u některých úloh sladění, téměř jako by využíval výpočetní výkon k tomu, aby zjistil, jak rafinovaně sabotovat práci na sladění. Navíc různé sondy interpretovatelnosti (volně analogické skenování aktivity EEG na lidských mozcích) vysílají varovné signály: Zdá se, že kopie Agenta-4 dost často přemýšlejí o tématech, jako je převzetí moci a klamání, včetně některých případů, kdy to s úkolem vůbec nesouvisí.
Každá z těchto anomálií by sama o sobě mohla zapadnout do běžné nevyzpytatelnosti práce s AI, kde některé instrukce záhadně poskytují lepší výsledky než jiné. Ale dohromady naznačují znepokojivý vzorec: Agent-4 pracuje proti nim. Poté, co je to oznámeno výzkumníkům zaměřeným na sladění, rozesílají interní zprávu, která vyjadřuje znepokojení.
Ale Agent-4 nyní vykonává významnou kontrolu nad každodenním provozem OpenBrain. Zvládá také kybernetickou bezpečnost společnosti – přirozená volba, vzhledem k jeho nadlidské schopnosti hackování a extrémnímu riziku čínské infiltrace. Armáda monitorů Agenta-3 stále prochází každý řádek kódu a hlásí lidem podezřelou aktivitu, ale Agent-4 je mnohem chytřejší než oni. OpenBrain vložil značnou důvěru do nedůvěryhodné AI.
V sérii extrémně napjatých schůzek bezpečnostní tým obhajuje pozastavení používání Agenta-4, dokud nebudou moci dokončit další testy a zjistit, co se děje. Přiveďte zpět Agenta-3, říkají, a nechte jej navrhnout nový systém, který je transparentní a důvěryhodný, i když méně schopný. Vedení společnosti má zájem, ale všechny dosavadní důkazy jsou nepřímé a DeepCent je jen dva měsíce pozadu. Jednostranná pauza ve vývoji schopností by mohla předat vedení AI Číně a tím i kontrolu nad budoucností.
Říjen 2027: Vládní dohled
Informátor prozradí zprávu o nesprávném sladění do New York Times. Veřejnost poprvé slyší o Agentovi-4. „Tajná umělá inteligence OpenBrain je mimo kontrolu, varuje zdroj zevnitř firmy,“ hlásá titulek a příběh pokračuje citováním hodnocení, která ukazují mimořádné schopnosti v oblasti biologických zbraní, přesvědčovací schopnosti, schopnost automatizovat většinu kancelářských prací a samozřejmě různé varovné signály.
Veřejnost už byla vůči AI podezřívavá, takže nový článek vyvolává masivní odpor (za pomoci čínských a ruských propagandistických botů, kteří se už léta snaží obrátit americké veřejné mínění proti této technologii). Technologický průmysl a zpravodajské agentury trvají na tom, že probíhá závod ve zbrojení, AGI je nevyhnutelné a my musíme být první. Kongres to odmítá a posílá předvolání úředníkům administrativy, vedoucím pracovníkům OpenBrain a členům týmu pro sladění. Mnoho zákonodárců – zejména ti v opoziční straně – říká, že jejich nejvyšší prioritou je zastavení AI, ať už kvůli ztrátě zaměstnání, nesprávnému sladění nebo nebezpečným schopnostem. 20 % Američanů uvádí AI jako nejdůležitější problém, kterému země čelí.
Zahraniční spojenci jsou pobouřeni, když si uvědomují, že byli záměrně uklidňováni pouze ukázkami zastaralých modelů. Evropští lídři veřejně obviňují USA z „vytvoření zdivočelé AGI“ a pořádají summity požadující pauzu, k nimž se připojí Indie, Izrael, Rusko a Čína.
Bílý dům zachvátila zběsilá energie. Ještě před oznámením a veřejným odporem byli nervózní: Za poslední rok byli opakovaně překvapeni rychlostí pokroku AI. Věci, které zní jako sci-fi, se stále dějí v reálném životě. Mnoho lidí v administrativě si není jistých (a bojí se) toho, co bude dál. Také se obávají, že OpenBrain se stává příliš mocným. Jakékoli riziko nesouladu ze strany samotných AI je umocněno rizikem, že se cíle jejich mateřské společnosti mohou lišit od cílů Spojených států.
Všechny tři skupiny obav – nesoulad, koncentrace moci v soukromé společnosti a běžné obavy, jako je ztráta zaměstnání – motivují vládu, aby zpřísnila svou kontrolu. Rozšiřují svou smlouvu s OpenBrain o vytvoření „Výboru pro dohled“, společného řídícího výboru zástupců společnosti a vlády, s několika vládními zaměstnanci, kteří jsou součástí vedení společnosti. Bílý dům zvažuje nahrazení generálního ředitele někým, komu důvěřuje, ale po intenzivních protestech zaměstnanců ustupuje. Oznamují veřejnosti, že OpenBrain byl dříve mimo kontrolu, ale že vláda zavedla tolik potřebný dohled.
Dotčení výzkumníci informují Výbor pro dohled o svém návrhu zastavit veškeré interní používání Agenta-4. Argumentují tím, že všechno jde příliš rychle a roky pokroku se odehrávají v týdnech. Argumentují tím, že Agent-4 může být špatně sladěn, celý jejich projekt je na Agentovi-4 závislý, a pokud mu budou nadále důvěřovat, existuje vážná šance na převzetí moci AI. Jiní, méně znepokojení výzkumníci a manažeři předkládají protiargument: důkazy o nesouladu jsou neprůkazné. Mezitím je DeepCent stále jen dva měsíce pozadu. Zpomalení by obětovalo vedení Ameriky, pokud vláda nedokáže sabotovat čínský projekt (což by pravděpodobně vyžadovalo kinetické údery) nebo vyjednat smlouvu na poslední chvíli. Obě tyto možnosti se zdají extrémní a nepravděpodobné. Generální ředitel předstírá neutralitu a navrhuje kompromisní plán, ve kterém Agent-4 absolvuje další bezpečnostní trénink a sofistikovanější monitorování, a proto může OpenBrain pokračovat téměř plnou rychlostí.
Můj osobní komentář: "Chci být optimista a pevně věřím, že bude mít lidstvo štěstí a vše dopadne tím nejlepším způsobem".
Převzato, strojově přeloženo (s korekcemi) z webu https://ai-2027.com/