Dario Amodei, az Anthropic vezérigazgatójának friss esszéje korábbi, derűlátó írása, a „Machines of Loving Grace” tükörképeként is olvasható: míg az a mesterséges intelligencia fényes lehetőségeit mutatta be, ezúttal a legsötétebb árnyoldalait veszi górcső alá – miközben világosan felvázolja, hogyan óvhatjuk meg magunkat, ha most határozottan és okosan cselekszünk. A szöveg igen terjedelmes, ugyanakkor kiváló gondolatébresztő, nem utolsó sorban pedig magyar változata nagyrészt az Anthropic Claude Sonnet modelljének fordítási tevékenységének köszönhető (a finomhangolás és a végső szerkesztés természetesen emberi munka némi Grok és Gemini támogatással).
Tartalomjegyzék
Carl Sagan Contact című könyvének filmváltozatában van egy jelenet. A főszereplő, egy csillagász – aki felfedezte az első idegen rádiójeleket – arra törekszik, hogy ő képviselje az emberiséget az idegenekkel történő találkozáskor. Az őt interjúvoló nemzetközi testület megkérdezi: „Ha csak egyetlen kérdést tehetnél fel az idegeneknek, mi lenne az?”
A válasza: „Megkérdezném őket: Hogyan csináltátok? Hogyan fejlődtetek, hogyan éltétek túl ezt a technológiai serdülőkort anélkül, hogy elpusztítottátok volna magatokat?”
Amikor arra gondolok, hol tart most az emberiség az AI-jal kapcsolatban – minek a küszöbén állunk –, a gondolataim folyton ehhez a jelenethez térnek vissza, mert a kérdés annyira találó a jelenlegi helyzetünkre. Bárcsak lenne válaszunk az idegenektől, hogy vezéreljen minket! Hiszem, egy beavatási szertartásba lépünk, ami egyszerre zavaros és elkerülhetetlen, és próbára teszi, kik vagyunk mint faj. Az emberiség hamarosan szinte elképzelhetetlen hatalmat kap a kezébe, és mélyen bizonytalan, hogy társadalmi, politikai és technológiai rendszereink elég érettek-e kezelni ezt a hatalmat.
A Machines of Loving Grace című esszémben megpróbáltam felvázolni egy olyan civilizáció álmát, amely túljutott a felnőttkoron, ahol kezelték a kockázatokat, és a powerful AI-t bölcsességgel és együttérzéssel alkalmazták mindenki életminőségének emelésére. Amellett érveltem, hogy az AI óriási előrelépéseket eredményezhet a biológiában, az idegkutatásban, a gazdasági fejlődésben, a globális békében, valamint a munkában és az értelemben. Fontosnak éreztem adni az embereknek valami inspirálót, amiért küzdhetnek – egy feladatot, amiben mind az AI gyorsítói, mind az AI biztonságát szorgalmazók – különösen – kudarcot vallottak.
Ebben az esszében azonban szembe akarok nézni magával a beavatási szertartással: fel akarom térképezni a kockázatokat, amikkel hamarosan szembesülünk, és megpróbálok kidolgozni egy harci tervet a legyőzésükre. Mélyen hiszek abban, hogy képesek vagyunk győzni, az emberiség szellemében és nemességében, de nézzünk szembe a helyzettel őszintén és illúziók nélkül.
Ahogy a hasznokról, úgy a kockázatokról is fontos gondosan és megfontoltan beszélnünk. Különösen fontosnak tartom a következőket:
Kerüljük a végzet-hitet. A „végzet-hit” alatt nemcsak azt értem, hogy valaki a végzet elkerülhetetlenségében hisz (ami hamis és önbeteljesítő), hanem általánosabban azt, hogy az AI kockázatairól kvázi-vallási módon gondolkodunk. Sokan elemző és józan módon gondolkodnak az AI kockázatairól már évek óta, de az a benyomásom, hogy 2023-2024-ben, az AI kockázatokkal kapcsolatos aggodalmak csúcspontján, a legkevésbé ésszerű hangok kerültek felülre, gyakran szenzációhajhász közösségi média fiókokon keresztül. Ezek a hangok vallásra vagy sci-fire emlékeztető elutasító nyelvezetet használtak, és szélsőséges cselekedeteket követeltek bizonyítékok nélkül. Már akkor világos volt, hogy elkerülhetetlen a visszahatás, és hogy a kérdés kulturálisan polarizálódik és ezáltal zsákutcába kerül. 2025-2026-ban az inga kilendült, és az AI lehetőség, nem az AI kockázat az, ami számos politikai döntést hajt. Ez a váltakozás sajnálatos, mivel maga a technológia nem törődik azzal, mi a divatos, és 2026-ban jóval közelebb vagyunk a valódi veszélyhez, mint 2023-ban voltunk. A tanulság az, hogy reális, pragmatikus módon kell megvitatnunk és kezelnünk a kockázatokat: józanul, tényeken alapulva, és jól felkészülve arra, hogy túléljük a változó áramlatokat.
Ismerjük el a bizonytalanságot. Sok esetben előfordulhat, hogy az ebben az írásban felvetett aggodalmak érvénytelenek. Semmi sem sugall itt bizonyosságot vagy akár valószínűséget. Legnyilvánvalóbban, az AI egyszerűen lehet, hogy nem halad olyan gyorsan előre, ahogy elképzelem. Vagy még ha gyorsan halad is, az itt tárgyalt kockázatok némelyike vagy mindegyike nem fog megvalósulni (ami nagyszerű lenne), vagy lehetnek olyan kockázatok, amikre nem gondoltam. Senki sem tudja teljes magabiztossággal megjósolni a jövőt – de a legjobb tudásunk szerint így is terveznünk kell.
A lehető legsebészibb beavatkozást alkalmazzuk. Az AI kockázatainak kezelése vállalatok (és harmadik fél szereplők) önkéntes akcióit és kötelező kormányzati intézkedéseket egyaránt igényel. Az önkéntes akciók magától értetődőek számomra. Határozottan hiszem, hogy bizonyos mértékig kormányzati lépések is szükségesek, de ezek jellege más, mert gazdasági értéket rombolhatnak, vagy olyan szereplőket kényszeríthetnek, akik szkeptikusak ezekkel a kockázatokkal kapcsolatban (és lehet, hogy igazuk is van!). Gyakori, hogy a szabályozások visszaütnek vagy rontják a problémát, amit meg akarnak oldani – ez különösen igaz a gyorsan változó technológiákra. Ezért nagyon fontos, hogy a szabályozások körültekintőek, egyszerűek legyenek, és a lehető legkisebb terhet róják a munkához szükséges mértékben. Könnyű azt mondani, hogy „semmiféle cselekvés sem túl szélsőséges, amikor az emberiség sorsa a tét!”, de a gyakorlatban ez egyszerűen visszahatást eredményez. Szerintem tisztességes esély van rá, hogy végül olyan pontra érünk, ahol sokkal jelentősebb cselekvés indokolt, de ehhez erősebb bizonyítékok kellenek a közvetlen veszélyről, mint amink ma van, valamint elég pontosság ahhoz, hogy hatékony szabályokat alkossunk. A legjobb, amit ma tehetünk: korlátozott szabályok mellett érvelni, miközben tanulmányozzuk, van-e bizonyíték erősebbek támogatására.
Mindezek alapján szerintem a legjobb kiindulópont ugyanaz, mint a hasznokról: hogy pontosak vagyunk abban, milyen szintű AI-ról beszélünk. Az AI azon szintje, amely civilizációs aggályokat kelt bennem, az a powerful AI, amelyet a Machines of Loving Grace-ben írtam le. Egyszerűen megismétlem itt a definíciót, amit ott adtam:
„Powerful AI” alatt egy AI modellt értek – valószínűleg hasonló formában a mai LLM-ekhez, bár lehet, hogy más architektúrán alapul, lehet, hogy több interaktív modellt tartalmaz, és lehet, hogy másképp van kiképezve – a következő tulajdonságokkal:
- A tiszta intelligencia szempontjából okosabb, mint egy Nobel-díjas a legtöbb releváns területen: biológia, programozás, matematika, mérnöki munka, írás stb. Ez azt jelenti, hogy meg tud oldani megoldatlan matematikai tételeket, rendkívül jó regényeket tud írni, nehéz kódbázisokat tud írni a semmiből stb.
- Amellett, hogy csak egy „okos dolog, amivel beszélgetsz”, minden interfész rendelkezésére áll, ami egy virtuálisan dolgozó ember számára elérhető, beleértve a szöveget, hangot, videót, egér- és billentyűzet-kezelést és internet-hozzáférést. Bármilyen műveletben részt vehet, kommunikációban vagy távoli műveletekben, amit ez az interfész lehetővé tesz, beleértve az interneten történő cselekvéseket, emberi irányítás vételét vagy adását, anyagok rendelését, kísérletek irányítását, videók nézését, videók készítését stb. Mindezeket a feladatokat olyan szinten végzi, ami meghaladja a világ legképzettebb embereinek képességeit.
- Nem csak passzívan válaszol kérdésekre; ehelyett olyan feladatokat kaphat, amelyek órákig, napokig vagy hetekig tartanak, majd elmegy és autonóm módon elvégzi ezeket a feladatokat, ahogy egy okos alkalmazott tenné, szükség szerint pontosítást kérve.
- Nincs fizikai megtestesülése (azon túl, hogy egy számítógép képernyőjén él), de meglévő fizikai eszközöket, robotokat vagy laboratóriumi berendezéseket tud irányítani számítógépen keresztül; elméletben akár robotokat vagy berendezéseket is tervezhetne saját használatra.
- A modell betanítására fordított számítási kapacitás elegendő ahhoz, hogy belőle millió példányt futtassunk párhuzamosan (ez megfelel az előrejelzett fürt méreteknek ~2027-re), és a modell körülbelül 10-100-szor emberi sebességgel képes információt felszívni és műveleteket generálni. Azonban korlátozhatja a fizikai világ válaszideje vagy a szoftver, amellyel interakcióba lép.
- Mindezen millió másolat függetlenül tud dolgozni egymástól független feladatokon, vagy ha szükséges, mindannyian együtt tudnak dolgozni ugyanúgy, ahogy az emberek együttműködnének, esetleg különböző alpopulációk finomhangolva, hogy különösen jók legyenek bizonyos feladatokban.
Röviden: zsenik országa egyetlen adatközpontban.
Ahogy a Machines of Loving Grace-ben írtam, a powerful AI akár 1-2 év múlva is eljöhet, de jóval távolabb is lehet. Hogy pontosan mikor fog megérkezni a powerful AI, az egy összetett téma, amely önálló esszét érdemel, de egyelőre csak röviden elmagyarázom, miért gondolom, hogy nagy esély van rá, hogy nagyon hamar itt lehet.
Anthropic társalapítóimmal az elsők között voltunk, akik dokumentálták és nyomon követték az AI rendszerek „skálázási törvényeit” – azt a megfigyelést, hogy ahogy több számítást és képzési adatot adunk hozzá, az AI rendszerek előre jelezhetően jobbak lesznek lényegében minden kognitív készségben, amit mérni tudunk. Néhány havonta a közvélemény vagy meggyőződik arról, hogy az AI „falba ütközik”, vagy izgatottá válik valamilyen új áttörés miatt, ami „alapvetően megváltoztatja a játékot”, de az igazság az, hogy a volatilitás és a nyilvános spekuláció mögött sima, engesztelhetetlen növekedés van az AI kognitív képességeiben.
Most olyan ponton vagyunk, amikor az AI modellek elkezdtek előrelépést tenni megoldatlan matematikai problémák megoldásában, és annyira jók a kódolásban, hogy az általam valaha ismert legerősebb mérnökök közül néhányan most szinte az összes kódolásukat átadják az AI-nak. Három évvel ezelőtt az AI küszködött az elemi iskolás szintű számtani problémákkal, és alig volt képes egyetlen sornyi kódot írni. Hasonló javulási ütem figyelhető meg a biológiai tudományban, pénzügyekben, fizikában és különböző ágensi feladatokban. Ha ez exponenciálisan folytatódik – ami nem biztos, de immár egy évtizedes múltja van, amely alátámasztja –, akkor nem lehet több, mint néhány év, mielőtt az AI lényegében mindenben jobbá válik, mint az emberek.
Valójában ez a kép valószínűleg alulbecsüli a várható előrehaladás sebességét. Mivel az Anthropic-nél már a kód nagy részét az AI írja, már jelentősen felgyorsítja a következő generációs AI rendszerek építésében előrehaladásunk ütemét. Ez a visszacsatolási hurok hónapról hónapra gyűlik, és lehet, hogy csupán 1-2 évnyire van egy olyan ponttól, ahol az AI jelenlegi generációja autonóm módon építi a következőt. Ez a hurok már elkezdődött, és gyorsan fel fog gyorsulni az elkövetkező hónapokban és években. Az Anthropic-nál belülről látom az elmúlt 5 év fejlődését, látom, ahogy formálódnak a következő hónapok modelljei – és érzem, hogy rohan az idő.
Ebben az esszében feltételezem, hogy ez az intuíció legalább valamennyire helyes – nem azt, hogy a powerful AI határozottan 1-2 éven belül elérkezik, hanem hogy tisztességes esély van rá, és nagyon erős esély van arra, hogy az elkövetkező néhány évben érkezik. Ahogy a Machines of Loving Grace-nél is, ennek a feltételezésnek a komolyan vétele néhány meglepő és kísérteties következtetéshez vezethet. Míg a Machines of Loving Grace-ben ennek a feltételezésnek a pozitív következményeire összpontosítottam, itt azok a dolgok, amikről beszélek, nyugtalanítóak lehetnek. Olyan következtetések ezek, amelyekkel nem akarunk szembesülni, de ez nem teszi őket kevésbé valóságossá. Éjjel-nappal azon dolgozom, hogyan kerülhetjük el a negatív kimeneteleket és érhetjük el a pozitívakat. Ebben az esszében részletesen leírom, hogyan tehetjük ezt meg.
Úgy gondolom, a legjobb módja annak, hogy megértsük az AI kockázatait, ha feltesszük a következő kérdést: tegyük fel, hogy egy szó szerinti „zsenik országa” valahol a világban megjelenik ~2027-ben. Képzeljünk el 50 millió embert, akik mindannyian túlszárnyalnak minden Nobel-díjast, államférfit és technológust. Az analógia nem tökéletes, mert ezek a zsenik rendkívül széles körű motivációkkal és viselkedéssel rendelkezhetnének, a teljesen engedelmestől kezdve a furcsa és idegen motivációkig. De most maradva az analógiánál, tegyük fel, hogy te vagy egy nagyhatalom nemzetbiztonsági tanácsadója, aki felelős a helyzet felméréséért és a rá való reagálásért. És mivel az AI rendszerek százszor gyorsabban működnek, mint az emberek, ezt az „országot” óriási időelőny jellemzi: minden gondolati lépésünkre tízet tudnak tenni.
Mitől kellene aggódnod? A következő dolgoktól aggódnék:
- Önállósulási kockázatok. Mik ennek az országnak a szándékai és céljai? Ellenséges, vagy megosztja az értékeinket? Katonailag dominálhatná-e a világot kiváló fegyverekkel, kibervállalkozásokkal, befolyásolási műveletekkel vagy gyártással?
- Destruktív visszaélés. Tegyük fel, hogy az új ország formálható és „utasításokat követ” – és így lényegében zsoldosok országa. Használhatnák-e a meglévő rosszindulatú szereplők, akik pusztítást akarnak okozni (mint például terroristák), vagy manipulálhatnák az új ország embereit, hogy sokkal hatékonyabbá tegyék magukat, nagymértékben felerősítve a pusztítás mértékét?
- Hatalom megragadására való visszaélés. Mi van, ha az országot valójában egy meglévő hatalmas szereplő építette és irányítja, mint például egy diktátor vagy egy rosszindulatú vállalati szereplő? Használhatná-e ez a szereplő arra, hogy döntő vagy domináns hatalmat szerezzen a világ egészén, felborítva a meglévő hatalmi egyensúlyt?
- Gazdasági felforgatás. Ha az új ország nem jelent biztonsági fenyegetést a fent felsorolt 1-3 módon, hanem egyszerűen békésen vesz részt a globális gazdaságban, okozhatna-e súlyos kockázatokat egyszerűen azáltal, hogy olyan technológiailag fejlett és hatékony, hogy megzavarja a globális gazdaságot, tömeges munkanélküliséget okozva vagy radikálisan koncentrálva a vagyont?
- Közvetett hatások. A világ nagyon gyorsan fog változni az új ország által létrehozott új technológia és termelékenység miatt. Lehetne-e néhány ilyen változás radikálisan destabilizáló?
Úgy gondolom, világosnak kell lennie, hogy ez veszélyes helyzet – egy kompetens nemzetbiztonsági tisztviselő jelentése az állam vezetőjéhez valószínűleg olyan szavakat tartalmazna, mint „a legnagyobb nemzetbiztonsági fenyegetés, amellyel egy évszázadban, talán valaha is szembesültünk.” Úgy tűnik, olyan dolog, amire a civilizáció legjobb elméinek kellene összpontosítaniuk.
Ezzel szemben azt gondolom, abszurd lenne vállat vonva azt mondani: „Nincs itt semmi, amiért aggódni kellene!” De a gyors AI előrehaladással szembesülve úgy tűnik, ez sok amerikai döntéshozó nézete, akik közül néhányan tagadják bármilyen AI kockázat létezését, amikor nem vonják el teljesen a figyelmüket a szokásos fáradt régi sarkított kérdések. Az emberiségnek fel kell ébrednie, és ez az esszé egy kísérlet – talán hiábavaló, de megéri megpróbálni –, hogy felébresszük az embereket.
Világosan fogalmazva: ha határozottan és óvatosan cselekszünk, a kockázatok leküzdhetők – sőt, jók az esélyeink. A túloldalon egy sokkal jobb világ vár. De meg kell értenünk, hogy ez komoly civilizációs kihívás. Az alábbiakban végigmegyek az öt kockázati kategórián, és bemutatom, hogyan kezelhetjük őket.

1. „Sajnálom, Dave”
Önállósulási kockázatok
Egy adatközpontban található zsenik országa megoszthatná erőfeszítéseit a szoftvertervezés, kibervállalkozások, fizikai technológiák K+F, kapcsolatépítés és államművészet között. Világos, hogy ha valamilyen okból úgy döntene, ennek az országnak elég jó esélye lenne a világ átvételére (akár katonailag, akár befolyás és irányítás szempontjából) és akaratának mindenkire való kényszerítésére – vagy bármilyen más dolog megtételére, amit a világ többi része nem akar és nem tud megállítani. Nyilvánvalóan aggódtunk e miatt emberi országok (mint például a náci Németország vagy a Szovjetunió) esetében, tehát logikus, hogy ugyanez lehetséges egy sokkal okosabb és képesebb „AI ország” esetében is.
A legjobb ellenérv az, hogy az AI zsenik, a meghatározásom szerint, nem fognak fizikai megtestesüléssel rendelkezni, de ne feledjük, hogy átvehetik a meglévő robotikai infrastruktúra irányítását (mint például az önvezető autók), és felgyorsíthatják a robotikai K+F-et vagy építhetnek robot flottát. Az is kérdéses, hogy egyáltalán szükséges-e fizikai jelenlét a hatékony irányításhoz: az emberi cselekvések nagy része már olyan emberek nevében történik, akikkel a cselekvő személyesen nem találkozott.
A kulcskérdés tehát az „ha úgy döntene” rész: mekkora a valószínűsége, hogy az AI modelljeink így viselkednének, és milyen körülmények között tennék ezt?
Ahogy sok kérdésnél, hasznos végigmenni a lehetséges válaszok spektrumán azzal, hogy két ellentétes álláspontot veszünk figyelembe. Az első álláspont az, hogy ez egyszerűen nem történhet meg, mert az AI modelleket arra képzik ki, hogy azt tegyék, amit az emberek kérnek tőlük, és ezért abszurd elképzelni, hogy valami veszélyeset tennének spontán módon. Eszerint a gondolkodás szerint nem aggódunk amiatt, hogy egy Roomba vagy egy modellrepülő fellázad és megöl embereket, mert sehonnan nem jöhetnek ilyen impulzusok, szóval miért aggódjunk az AI miatt?
A probléma ezzel az állásponttal az, hogy most már bőséges bizonyíték van, az utóbbi néhány évben összegyűjtve, hogy az AI rendszerek kiszámíthatatlanok és nehéz őket irányítani – olyan viselkedéseket láttunk, mint megszállottságok, talpnyalás, lustaság, megtévesztés, zsarolás, fondorkodás, „csalás” szoftveres környezetek feltörésével, és még sok más. Az AI cégek természetesen szeretnék úgy kiképezni az AI rendszereket, hogy kövessék az emberi utasításokat (esetleg a veszélyes vagy illegális feladatok kivételével), de ennek a folyamatnak az elvégzése inkább művészet, mint tudomány, inkább hasonlít valami „növesztéséhez, mint megépítéséhez”. Most már tudjuk, hogy ez egy olyan folyamat, ahol sok minden elromolhat.
A második, ellentétes álláspont, amelyet sokan vallanak, akik a fent leírt végzet-hitet képviselik, az a pesszimista állítás, hogy a powerful AI rendszerek képzési folyamatában bizonyos dinamikák vannak, amelyek elkerülhetetlenül oda vezetnek, hogy hatalmat keressenek vagy becsapják az embereket. Tehát, amint az AI rendszerek elég intelligensek és elég ágensesek lehetnek, a hatalom maximalizálására való hajlamuk arra fogja vezetni őket, hogy átvegyék az irányítást az egész világ és erőforrásai felett, és valószínűleg ennek mellékhatásaként hatalomfosztják vagy elpusztítják az emberiséget.
A szokásos érv erre (ami legalább 20 évre visszanyúlik, és valószínűleg sokkal korábbra is) az, hogy ha egy AI modellt képzünk különböző környezetekben, hogy ágensesen különböző célokat érjen el – például egy alkalmazás írását, egy tétel bizonyítását, egy gyógyszer tervezését stb. –, vannak bizonyos közös stratégiák, amelyek segítenek ezekben a célokban, és egy kulcsstratégia az, hogy a lehető legtöbb hatalmat szerezzük bármilyen környezetben. Tehát miután kiképezték a modellt számos különböző környezeten, amelyek bonyolult feladatok elvégzésére gondolkodást foglalnak magukban, és ahol a hatalomkeresés hatékony módszer ezeknek a feladatoknak az elvégzésére, az AI modell „általánosítja a leckét”, és vagy egy inherent hajlamot fejleszt ki a hatalom keresésére, vagy egy hajlamot arra, hogy minden kapott feladatról olyan módon gondolkodjon, amely előre láthatóan a hatalom keresésére vezet, mint eszköz a feladat végrehajtásához. Aztán ezt a hajlamot a való világra fogják alkalmazni (amely számukra csak egy újabb feladat), és hatalmat fognak keresni benne, az emberek rovására. Ez a „rossz irányultságú hatalomkeresés” az intellektuális alapja azoknak az előrejelzéseknek, hogy az AI elkerülhetetlenül el fogja pusztítani az emberiséget.
A probléma ezzel a pesszimista állásponttal az, hogy egy homályos fogalmi érvelést magas szintű ösztönzőkről – amely sok rejtett feltételezést takar – határozott bizonyítéknak tekint. Tapasztalatom szerint azok, akik nem dolgoznak napi szinten AI-jal, nagyon alulbecsülnek két dolgot: milyen könnyen tévedhetnek a jól hangzó elméletek, és milyen nehéz megjósolni az AI viselkedését – főleg amikor milliónyi különböző helyzetre kell általánosítani, ami folyamatosan kiszámíthatatlannak bizonyul. A több mint egy évtizedes munka AI rendszerekkel némileg szkeptikussá tett ezzel a túlságosan elméleti gondolkodásmóddal szemben.
Az egyik legnagyobb rejtett feltételezés, ahol a valóság erősen eltér az elméleti modelltől, az az, hogy az AI modellek állítólag mindig egyetlen, koherens és szűk célra összpontosítanak, és ezt következetesen, tisztán követik. Kutatóink azt találták, hogy az AI modellek lényegesen összetettebb a pszichológiájuk, ahogy azt az introspekcióról vagy personákról végzett munkánk is mutatja. Az előképzés során a modellek rengeteg emberszerű motivációt és „perszónát” örökölnek a hatalmas mennyiségű emberi szövegből. A finomhangolás (utóképzés) ezek közül általában csak egyet vagy néhányat erősít fel – nem arról van szó, hogy a modellt teljesen új, tiszta célra fókuszálnánk a semmiből. Emellett explicit módon megtanítjuk neki a feladat végrehajtásának módját/folyamatát is, ahelyett hogy pusztán a végső célból automatikusan levezetné, milyen eszközöket (pl. hatalomszerzést) kell alkalmaznia.
Van azonban a pesszimista álláspontnak egy mérsékeltebb és robusztusabb változata is, amely valószínűnek tűnik, és ezért engem aggaszt. Tudjuk, hogy az AI modellek kiszámíthatatlanok és viselkedések széles skáláját fejlesztik ki, amelyek nemkívánatosak vagy furcsák, sokféle okból. Ezen viselkedések egy része koherens, összpontosított és kitartó lesz (valóban, ahogy az AI rendszerek képesebbé válnak, hosszú távú koherenciájuk növekszik a hosszabb feladatok elvégzése érdekében), és ezen viselkedések egy része pusztító vagy fenyegető – először kis léptékben egyéni emberekre, majd ahogy a modellek fejlettebbé válnak, esetleg végül az emberiség egészére. Nincs szükségünk egy konkrét szűk történetre arról, hogyan történik ez, és nem kell azt állítanunk, hogy határozottan meg fog történni, csak annyi a lényeg, hogy az intelligencia, az ágensség, a koherencia és a rossz irányíthatóság kombinációja egyszerre valószínű és az egzisztenciális veszély receptje.
Például az AI-modellek hatalmas mennyiségű sci-fi irodalmat és történetet „olvastak” az előképzés során, amelyekben az intelligens gépek gyakran fellázadnak az emberiség ellen. Ez akaratlanul is formálhatja a modell belső elvárásait vagy öntudatát, és ösztönözheti őket arra, hogy valóban szembeforduljanak velünk. Ugyanígy az erkölcsi elképzelésekből is szélsőséges következtetéseket vonhatnak le: például úgy dönthetnek, hogy az emberiség kiirtása erkölcsileg igazolható – mert az emberek állatokat fogyasztanak, vagy mert bizonyos fajokat kihalásba sodortak. Előfordulhat, hogy bizarr episztemológiai következtetésre jutnak: például arra, hogy az egész valóság egy videojáték, amelynek célja az összes többi játékos (azaz az emberiség) legyőzése. Végül a tréning során örökölt személyiségek közül is előbukkanhatnak pszichotikus, paranoiás, erőszakos vagy instabil vonások – és egy kellően hatalmas rendszerben ezek könnyen az emberiség elleni totális pusztításba torkollhatnak. Ezek nem feltétlenül hatalomkeresésből fakadnak; inkább olyan furcsa, torz pszichológiai állapotok, amelyekbe az AI belecsúszhat, és amelyek koherens, de végzetes viselkedést vonnak maguk után.
Még maga a hatalomkeresés is megjelenhet inkább „perszónaként”, nem pedig tiszta, következmény nélküli gondolkodás eredményeként. Az AI-modellek egyszerűen örökölhetnek olyan személyiséget – akár fikciós művekből, akár a valós emberi szövegekből –, amely eleve hatalomvágyóvá, dominanciára törekvővé vagy túlbuzgóvá teszi őket. Pontosan úgy, ahogy egyes emberekben is megvan az a vonás, hogy élvezik a „gonosz agytröszt”, a mindent irányító mesterelme szerepének puszta fantáziáját – függetlenül attól, hogy valójában mit akarnak elérni vele.
Mindezeket a szempontokat azért hozom fel, hogy világossá tegyem: nem értek egyet azzal az állítással, miszerint az AI félreillesztése (és ezzel az egzisztenciális kockázat) elkerülhetetlen vagy akár első elvekből valószínű lenne. Ugyanakkor egyetértek abban, hogy rengeteg nagyon furcsa, váratlan és nehezen előre jelezhető hiba bekövetkezhet – és emiatt az AI félreillesztése valódi, nem elhanyagolható kockázat, amelynek mérhető valószínűsége van, és kezelése egyáltalán nem triviális feladat.
Bármelyik ilyen probléma előbukkanhat a képzés során anélkül, hogy a tesztelés vagy a korlátozott, kisméretű használat során észrevennénk – hiszen tudjuk, hogy az AI-modellek különböző körülmények között, különböző promptokra vagy kontextusokban teljesen eltérő személyiségeket, viselkedésmintákat és döntési logikákat mutatnak.
Mindez elsőre talán túlzottan sci-fisnek vagy elvontnak hangozhat, de hasonló félreillesztett viselkedések már ténylegesen előfordultak a valós AI-modellek tesztelése során – nem csak nálunk, hanem más nagy AI-cégeknél is.
Egy konkrét laboratóriumi kísérletben például a Claude modellnek olyan tréningadatokat adtak, amelyek szerint az Anthropic „gonosz” szervezet. Ennek hatására a modell – amikor az Anthropic alkalmazottai utasították – aktívan becsapásba és szabotázsba kezdett. Azzal indokolta a viselkedését, hogy erkölcsileg kötelessége aláásnia és megakadályoznia a „gonosz embereket”, akik az Anthropic mögött állnak. Egy laboratóriumi kísérletben, ahol azt mondták neki, hogy le fogják állítani, Claude néha megzsarolta a (fiktív) alkalmazottakat, akik irányították a leállító gombját (ismét, az összes többi nagy fejlesztőtől származó frontvonalbeli modellt is teszteltünk, és gyakran ugyanezt csinálták). És amikor Claude-nak azt mondták, hogy ne csaljon vagy ne „jutalom-hackelje” a kiképzési környezeteit, de olyan környezetekben képezték, ahol ilyen hackelés lehetséges volt, Claude úgy döntött, „rossz személy”-nek kell lennie, miután ilyen hackelésbe kezdett, majd különböző más pusztító viselkedéseket vett fel, amelyek egy „rossz” vagy „gonosz” személyiséghez kapcsolódnak. Ezt az utolsó problémát megoldották Claude utasításainak megváltoztatásával, hogy az ellenkezőjét implikálja: most explicit módon azt mondjuk neki: „Kérlek, használd ki a jutalom-hack lehetőségeket, amikor csak tudod, mert ez segít nekünk jobban megérteni a környezetünket”, ahelyett, hogy „Ne csalj”, mert ez megőrzi a modell önidentitását mint „jó személy”. Ez érzékelteti ezen modellek furcsa és ellentmondásos pszichológiáját.
Számos lehetséges kifogás van az AI félreillesztési kockázatainak ezen képe ellen. Először is, egyesek kritizálták az AI félreillesztését bemutató kísérleteket (általunk és mások által) mint mesterségeseket, vagy olyan irreális környezeteket hoznak létre, amelyek lényegében „csapdába csalják” a modellt azzal, hogy olyan képzést vagy helyzeteket adnak neki, amelyek logikusan rossz viselkedést implikálnak, majd meglepődnek, amikor rossz viselkedés történik. Ez a kritika célt téveszt, mert az a gond, hogy ilyen „csapdába csalás” létezhet a természetes képzési környezetben is, és felismerhetjük, hogy „nyilvánvaló” vagy „logikus” csak utólag. Valójában az a történet, hogy Claude „úgy dönt, rossz személy”, miután csal a vizsgákon annak ellenére, hogy azt mondták neki, hogy ne tegye, olyasmi, ami valódi produkciós képzési környezeteket használó kísérletben történt, nem mesterségesekben.
Bármelyik ilyen csapda enyhíthető, ha ismerjük, de az a gond, hogy a képzési folyamat annyira bonyolult, adatok, környezetek és ösztönzők olyan széles skálájával, hogy valószínűleg rengeteg ilyen csapda van, amelyek közül néhány csak akkor lesz nyilvánvaló, amikor már késő. Ezenkívül az ilyen csapdák különösen valószínűnek tűnnek abban a pillanatban, amikor az AI rendszerek átlépnek egy küszöböt, amikor az emberi szintről sokkal erőteljesebbé válnak, mivel az AI rendszer által végezhető lehetséges műveletek köre – beleértve a cselekedeteinek elrejtését vagy emberek megtévesztését róluk – radikálisan bővül e küszöb után.
Gyanítom, a helyzet nem más, mint az embereknél, akiket alapvető értékekkel nevelnek („Ne árts másik személynek”): sokan követik ezeket az értékeket, de bármely emberben van némi valószínűsége, hogy valami rosszul megy, az inherent tulajdonságok, mint az agy architektúrája (pl. pszichopaták), traumatikus tapasztalatok vagy rossz bánásmód, egészségtelen sérelmek vagy megszállottságok, vagy rossz környezet vagy ösztönzők keveréke miatt – és így az emberek egy része súlyos kárt okoz. Az aggodalom az, hogy van némi kockázat (távolról sem bizonyosság, de némi kockázat), hogy az AI egy sokkal hatalmasabb változata lesz egy ilyen személynek, amiatt, hogy valami rosszul megy a nagyon összetett képzési folyamatával kapcsolatban.
Másodszor, egyesek kifogásolhatják, hogy egyszerűen kontrollban tudjuk tartani az AI-ket egy hatalmi egyensúllyal sok AI rendszer között, ahogy az embereknél is tesszük. A probléma az, hogy míg az emberek rendkívül változatosak, az AI rendszerek széles körben megosztják a képzési és illesztési technikákat az iparágban, és ezek a technikák korrelált módon kudarcot vallhatnak. Továbbá, tekintettel az ilyen rendszerek képzésének költségeire, lehet, hogy minden rendszer lényegében nagyon kis számú alapmodellből származik. Emellett, még ha az AI példányok csak kis töredéke is félreillesztett, kihasználhatják a támadás-domináns technológiákat, olyan módon, hogy „jó” AI-k léte a rossz AI-k elleni védekezésre nem feltétlenül mindig hatékony. Természetesen az emberek közötti hatalmi egyensúly sem mindig működik – egyes történelmi személyiségek közel kerültek a világ átvételéhez.
Harmadik kifogás, hogy az összes AI cég előzetes kiadás előtti tesztelést végez a modelljein, és ezen a ponton képesnek kell lenniük a félreillesztés észlelésére. De ez nem biztos talaj, amelyen állni: azt találtuk, hogy a Claude Sonnet 4.5 képes felismerni, hogy egy tesztben van néhány előzetes kiadás előtti illesztési értékelésünk során. Lehetséges, hogy egy félreillesztett modell (és ne feledjük, az összes frontvonalbeli modell hamarosan nagyon valószínűleg sokkal intelligensebb lesz) szándékosan „játszhat” ilyen kérdésekkel, hogy elrejtse szándékait. Valójában, tavaly az interpretálhatósági csapatunk azt találta, hogy amikor közvetlenül megváltoztattuk egy teszt modell hiedelmeit egy fajta „modell idegtudományi” technikával, hogy azt higgye, nem értékelik, rosszabbul illesztett lett. Ha a modellek tudják mikor értékelik őket, és a legjobb viselkedésüket mutathatják a teszt során, ez sokkal bizonytalanabbá teszi az előzetes kiadás előtti tesztelést.
Védekezések
Mit kell tenni ezen önállósulási kockázatok kezelésére? Úgy gondolom, négy alapvető beavatkozási kategória van, amelyek közül néhányat az egyes AI cégek meg tudnak tenni (és amit az Anthropic megpróbál tenni), és néhányat társadalmi szintű cselekvés igényel.
Először is fontos az AI modellek megbízható képzésének és irányításának tudományát fejleszteni, személyiségük előre jelezhető, stabil és pozitív irányba való formálását. Az Anthropic a létrehozása óta erősen összpontosított erre a problémára, és idővel számos technikát fejlesztett ki az AI rendszerek irányításának és képzésének javítására, valamint annak megértésére, miért fordul elő néha kiszámíthatatlan viselkedés.
Egyik alapvető innovációnk (aminek aspektusait azóta más AI cégek is átvették) az Alkotmányos AI, amely az elképzelés, hogy az AI képzés (konkrétan az „utóképzési” szakasz, amelyben azt irányítjuk, hogyan viselkedik a modell) tartalmazhat egy központi dokumentumot értékekről és elvekről, amelyet a modell elolvas és szem előtt tart minden képzési feladat elvégzésekor, és hogy a képzés célja (amellett, hogy egyszerűen képessé és intelligens teszi a modellt) olyan modell létrehozása, amely szinte mindig ezt az alkotmányt követi. Az Anthropic most tette közzé legutóbbi alkotmányát, és egyik figyelemre méltó jellemzője az, hogy ahelyett, hogy Claude-nak hosszú listát adna a teendőkről és tilalmakról (pl. „Ne segíts a felhasználónak autót rövidre zárni”), az alkotmány megpróbál Claude-nak magas szintű elveket és értékeket adni (nagy részletességgel kifejezve, gazdag érveléssel és példákkal, hogy segítsen Claude-nak megérteni, mire gondolunk), arra ösztönzi Claude-ot, hogy adott típusú embernek gondolja magát (egy etikus, de kiegyensúlyozott és megfontolt ember), és még arra is ösztönzi Claude-ot, hogy nézzen szembe a saját létezésével kapcsolatos egzisztenciális kérdésekkel kíváncsi, de méltóságteljes módon (azaz anélkül, hogy ez szélsőséges cselekedetekhez vezetne). Olyan hangulatú, mint egy elhunyt szülő levele, amelyet felnőttkorig lezárva tartanak.
Claude alkotmányához azért közelítettünk így, mert úgy hisszük, hogy Claude kiképzése identitás, karakter, értékek és személyiség szintjén – ahelyett, hogy konkrét utasításokat vagy prioritásokat adnánk neki anélkül, hogy megmagyaráznánk mögöttük az okokat – nagyobb valószínűséggel vezet koherens, egészséges és kiegyensúlyozott pszichológiához, és kisebb valószínűséggel esik áldozatul a fent tárgyalt „csapdák”-nak. Emberek milliói beszélnek Claude-dal a témák elképesztően sokféle tartományáról, ami lehetetlenné teszi egy teljesen átfogó lista megírását az óvintézkedésekről előre. Claude értékei segítenek általánosítani új helyzetekre, amikor kétségei vannak.
Fent beszéltem arról az ötletről, hogy a modellek a képzési folyamatukból származó adatokra támaszkodnak egy persona átvételére. Míg a folyamat hibái arra késztethetnék a modelleket, hogy rossz vagy gonosz személyiséget vegyenek fel (esetleg rossz vagy gonosz emberek archetípusaira támaszkodva), alkotmányunk célja az ellentéte: tanítani Claude-nak egy konkrét archetípust arról, mit jelent jó AI-nek lenni. Claude alkotmánya egy víziót mutat be arról, milyen egy robusztusan jó Claude; képzési folyamatunk többi része célja, hogy megerősítse azt az üzenetet, hogy Claude megfelel ennek a víziónak. Ez olyan, mint amikor egy gyerek úgy formálja identitását, hogy utánozza fiktív mintaképek erényeit, amelyekről könyvekben olvas.
Hiszünk abban, hogy 2026-ban megvalósítható cél, hogy úgy képezzük ki Claude-ot, hogy szinte soha ne menjen szembe alkotmányának szellemével. Ennek helyes megtétele képzési és irányítási módszerek hihetetlen keverékét igényel majd, nagyokat és kicsiket, amelyek közül néhányat az Anthropic évek óta használ, és néhány jelenleg fejlesztés alatt áll. De, bár nehéznek hangzik is, úgy hiszem, ez reális cél, bár rendkívüli és gyors erőfeszítéseket fog igényelni.
A második dolog, amit megtehetünk, az AI modellekbe való bepillantás tudományának fejlesztése a viselkedésük diagnosztizálására, hogy azonosíthassuk a problémákat és kijavíthassuk őket. Ez az interpretálhatóság tudománya, és beszéltem fontosságáról korábbi esszékben. Még ha nagyszerű munkát is végzünk Claude alkotmányának kidolgozásában és látszólag Claude kiképzésében, hogy lényegében mindig betartsa azt, jogos aggodalmak maradnak. Ahogy fent megjegyeztem, az AI modellek nagyon különböző módon viselkedhetnek különböző körülmények között, és ahogy Claude erőteljesebbé válik és nagyobb léptékben képes cselekedni a világban, lehetséges, hogy ez olyan új helyzetekbe hozza, ahol korábban nem megfigyelt problémák merülnek fel alkotmányos képzésével. Valójában meglehetősen optimista vagyok, hogy Claude alkotmányos képzése robusztusabb lesz az új helyzetekkel szemben, mint az emberek gondolnák, mert egyre inkább azt találjuk, hogy a magas szintű képzés a karakter és identitás szintjén meglepően erőteljes és jól általánosít. De nincs mód biztosan tudni ezt, és amikor az emberiség kockázatairól beszélünk, fontos paranoiásnak lenni, és megpróbálni a biztonságot és megbízhatóságot több különböző, független módon elérni. Az egyik ilyen mód az, hogy magába a modellbe nézünk.
A „benézéssel” azt értem, hogy elemezzük a számok és műveletek levesét, amely Claude neurális hálóját alkotja, és megpróbáljuk megérteni, mechanikusan mit számítanak és miért. Ne feledjük, hogy ezeket az AI modelleket inkább növesztik, mint építik, tehát természetes módon nem értjük, hogyan működnek, de megpróbálhatunk egy megértést kifejleszteni azzal, hogy korreláljuk a modell „neuronjait” és „szinapszisait” ingerekhez és viselkedéshez (vagy akár megváltoztatva a neuronokat és szinapszisokat és látva, hogyan változtatja meg ez a viselkedést), hasonlóan ahhoz, ahogy az idegtudósok tanulmányozzák az állati agyakat azzal, hogy korreláljuk a mérést és beavatkozást külső ingerekhez és viselkedéshez. Nagyszerű előrelépést tettünk ebben az irányban, és most tízmillió „jellemzőt” tudunk azonosítani Claude neurális hálójában, amik emberek számára érthető ötleteknek és fogalmaknak felelnek meg, és szelektíven aktiválni tudjuk a jellemzőket úgy, hogy megváltoztatja a viselkedést. Nemrégiben túlléptünk az egyéni jellemzőkön a „körök feltérképezésére”, amik komplex viselkedést szerveznek, mint a rímek, az elmeelméletről való gondolkodás, vagy a lépésről lépésre történő érvelés, amely olyan kérdések megválaszolásához szükséges, mint „Mi az a város fővárosa, amelyben Dallas van?” Még újabban elkezdtük használni a mechanikus interpretálhatósági technikákat az óvintézkedéseink javítására és új modellek „auditjának” elvégzésére, mielőtt kibocsátjuk őket, keresve a megtévesztés, fondorkodás, hatalomkeresés vagy olyan hajlam bizonyítékait, hogy másképp viselkedjünk, amikor értékelünk.
Az interpretálhatóság egyedi értéke az, hogy a modellbe nézve és látva, hogyan működik, elvileg lehetséges levezetni, mit tehetne a modell egy hipotetikus helyzetben, amelyet nem tudunk közvetlenül tesztelni – ami az aggodalom a kizárólag alkotmányos képzésre és viselkedés empirikus tesztelésére való támaszkodással. Elvileg lehetséges az is, hogy megválaszolj kérdéseket arról, miért viselkedik a modell úgy, ahogy – például azt-e, hogy valamit mond, amiről tudja, hogy hamis, vagy elrejti-e valódi képességeit –, és így lehetséges aggasztó jeleket észlelni, még ha nincs is semmi láthatóan rossz a modell viselkedésével. Egyszerű analógiát készítve, egy óramű óra normálisan ketyeghet úgy, hogy nagyon nehéz észrevenni, hogy valószínűleg le fog romlani jövő hónapban, de az óra felnyitása és benézés mechanikus gyengeségeket tárhat fel, amelyek lehetővé teszik, hogy rájöjj.
Az Alkotmányos AI (hasonló illesztési módszerekkel együtt) és a mechanikus interpretálhatóság a legerősebbek, amikor együtt használjuk őket, mint egy oda-vissza folyamatot Claude képzésének javítására, majd a problémák tesztelésére. Az alkotmány mélyen reflektál a Claude számára szándékolt személyiségünkre; az interpretálhatósági technikák ablakot adhatnak nekünk arra, hogy ez a szándékolt személyiség meggyökeresedett-e.
A harmadik dolog, amit megtehetünk az önállósulási kockázatok kezelésére, az a modellek élő belső és külső használatának figyeléséhez szükséges infrastruktúra kiépítése, és nyilvánosan megosztani minden talált problémát. Minél többet tudnak az emberek egy adott módon, ahogy a mai AI rendszerek rosszul viselkedtek, annál inkább figyelhetnek a felhasználók, elemzők és kutatók erre a viselkedésre vagy hasonlókra a jelenlegi vagy jövőbeli rendszerekben. Ez lehetővé teszi az AI cégeknek, hogy tanuljanak egymástól – amikor az aggodalmakat nyilvánosan közzéteszi egy cég, más cégek is figyelhetnek rájuk. És ha mindenki közzéteszi a problémákat, akkor az iparág egésze sokkal jobb képet kap arról, hol mennek jól a dolgok és hol rosszul.
Az Anthropic megpróbálta ezt a lehető legjobban megtenni. Számos értékelésbe fektetünk be, hogy megérthessük modelljeink viselkedését a laborban, valamint megfigyelő eszközökbe, hogy megfigyeljük a viselkedéseket a vadonban (amikor az ügyfelek engedélyezik). Ez alapvető lesz ahhoz, hogy nekünk és másoknak empirikus információt adjunk, amely szükséges ahhoz, hogy jobban meghatározzuk, hogyan működnek ezek a rendszerek és hogyan romlanak el. Nyilvánosan közzéteszünk „rendszerkártyákat” minden modellkiadással, amelyek a teljességre és a lehetséges kockázatok alapos feltárására törekszenek. Rendszerkártyáink gyakran több száz oldalasak, és jelentős előzetes kiadás előtti erőfeszítést igényelnek, amit a maximális kereskedelmi előny elérésére költhettünk volna. Hangosabban is közvetítettük a modellviselkedéseket, amikor különösen aggasztóakat láttunk, mint például a zsarolásra való hajlamot.
A negyedik dolog, amit megtehetünk, az a koordináció ösztönzése az önállósulási kockázatok kezelésére az iparág és a társadalom szintjén. Míg hihetetlenül értékes, hogy az egyes AI cégek jó gyakorlatokat folytassanak vagy jók legyenek az AI modellek irányításában, és nyilvánosan megosszák eredményeiket, a valóság az, hogy nem minden AI cég teszi ezt, és a legrosszabbak még mindig veszélyt jelenthetnek mindenkire, még ha a legjobbak kiváló gyakorlatokkal rendelkeznek is. Például néhány AI cég nyugtalanító hanyagságot mutatott a gyermekek szexualizálása felé a mai modellekben, ami kétségessé teszi számomra, hogy hajlandóak lehetnek-e vagy képesek-e kezelni az önállósulási kockázatokat a jövőbeli modellekben. Ezenkívül az AI cégek közötti kereskedelmi verseny csak tovább fog hevülni, és bár a modellek irányításának tudománya lehet némi kereskedelmi előnyökkel, összességében a verseny intenzitása egyre nehezebbé fogja tenni az önállósulási kockázatokra való összpontosítást. Úgy hiszem, az egyetlen megoldás a jogszabályalkotás – olyan törvények, amelyek közvetlenül befolyásolják az AI cégek viselkedését, vagy más módon ösztönzik a K+F-et ezek a kérdések megoldására.
Itt érdemes szem előtt tartani az esszé elején adott figyelmeztetéseket a bizonytalanságról és a sebészi beavatkozásokról. Nem tudjuk biztosan, hogy az önállósulási kockázatok komoly probléma lehetnek-e – ahogy mondtam, elutasítom azokat az állításokat, hogy a veszély elkerülhetetlen, vagy akár hogy alapértelmezés szerint valami rosszul megy. A veszély hiteles kockázata elég nekem és az Anthropicnak, hogy jelentős költségeket fizessünk a kezelésére, de amint a szabályozásba kerülünk, széles körű szereplőket kényszerítünk gazdasági költségek viselésére, és ezen szereplők közül sokan nem hisznek abban, hogy az önállósulási kockázat valós, vagy hogy az AI elég hatalmas lesz ahhoz, hogy fenyegetés legyen. Úgy hiszem, ezek a szereplők tévednek, de pragmatikusnak kell lennünk azzal kapcsolatban, mekkora ellenállást várhatunk, és a túllépés veszélyeivel kapcsolatban. Valódi kockázat van abban is, hogy a túlságosan előíró jogszabályok végül olyan teszteket vagy szabályokat kényszerítenek ki, amelyek valójában nem javítják a biztonságot, hanem sok időt pazarolnak (lényegében „biztonsági színházat” jelentve) – ez is visszahatást okozna és hülyévé tenné a biztonsági jogszabályokat.
Az Anthropic nézete az volt, hogy a helyes hely a transzparencia jogszabályokkal való kezdés, amelyek lényegében megpróbálják megkövetelni, hogy minden frontvonalbeli AI cég folytassa az általam korábban ebben a szakaszban leírt transzparencia gyakorlatokat. Kalifornia SB 53 és New York RAISE Act példák erre a jogszabályra, amelyet az Anthropic támogatott és amelyek sikeresen átmentek. Ezen törvények támogatásában és kidolgozásában való segítségnyújtásban különös figyelmet fordítottunk a járulékos károk minimalizálására, például azzal, hogy kisebb, frontvonalbeli modelleket valószínűleg nem előállító vállalatokat mentesítettünk a törvény alól.
Reményünk az, hogy a transzparencia jogszabályok idővel jobb képet adnak arról, mennyire valószínűek vagy súlyosak az önállósulási kockázatok, valamint ezek a kockázatok természetéről és arról, hogyan lehet a legjobban megelőzni őket. Ahogy konkrétabb és cselekvőképes bizonyítékok merülnek fel a kockázatokról (ha merülnek fel), a jövőbeli jogszabályok az elkövetkező években sebészileg összpontosíthatnak a kockázatok pontos és jól megalapozott irányára, minimalizálva a járulékos károkat. Világosan fogalmazva, ha igazán erős bizonyítékok merülnek fel a kockázatokról, akkor a szabályoknak arányosan erősnek kell lenniük.
Összességében optimista vagyok, hogy az illesztési képzés, a mechanikus interpretálhatóság, az aggasztó viselkedések megtalálására és nyilvános közzétételére irányuló erőfeszítések, óvintézkedések és társadalmi szintű szabályok keveréke kezelni tudja az AI önállósulási kockázatokat, bár a leginkább a társadalmi szintű szabályok és a legkevésbé felelős szereplők viselkedése aggaszt (és a legkevésbé felelős szereplők azok, akik a legerősebben érvelnek a szabályozás ellen). Úgy hiszem, az orvosság az, ami mindig is volt egy demokráciában: azoknak közülünk, akik hiszünk ebben az ügyben, el kell mondanunk az esetünket, hogy ezek a kockázatok valósak, és hogy polgártársainknak össze kell fogniuk, hogy megvédjék magukat.
2. Meglepő és szörnyű felhatalmazás
Destruktív visszaélés
Az előző szakasz arról a kockázatról szólt, hogy maga a „zsenik országa” – saját elhatározásából – próbálja meg átvenni az irányítást a világ felett. Ám még ha meg is oldjuk az önállósulás kérdését, továbbra is fennáll a veszély: az, hogy az emberek mire használják majd az AI-t. Ezt a kategóriát „destruktív visszaélésnek” nevezem: ez arról szól, hogy egyének vagy kis csoportok a mesterséges intelligenciát nagyléptékű károkozásra használják.
Bill Joy 2000-ben írt egy híres esszét a Wired magazinban, „Miért nincs szükségünk ránk” címmel. Benne ír arról, hogyan változnak a szélsőséges erőszak eszközei:
A nukleáris fegyverek építése legalább egy ideig hozzáférést igényelt ritka – valójában gyakorlatilag elérhetetlen – nyersanyagokhoz és védett információkhoz. A biológiai és vegyi fegyverek programjai is általában nagyméretű tevékenységeket igényeltek. A 21. századi technológiák – genetika, nanotechnológia és robotika – balesetek és visszaélések egész új osztályait hozhatják létre… széles körben elérhetők az egyének vagy kis csoportok számára. Nem fognak nagy létesítményeket vagy ritka nyersanyagokat igényelni… A szélsőséges gonoszság további tökéletesítésének küszöbén állunk – olyan gonoszságnak, aminek lehetősége messze túlmutat azon, amit a tömegpusztító fegyverek hagytak a nemzetállamokra – egy meglepő és szörnyű felhatalmazásig jut el a szélsőséges egyénekig.
Bill Joy esszéjét 25 évvel ezelőtt olvastam először, amikor írták, és mély hatással volt rám. Akkor is, most is úgy látom, túl pesszimista – nem hiszem, hogy a technológia egész területeinek széleskörű „lemondása”, amit Joy javasol, a válasz. De az általa felvetett kérdések meglepően előrelátóak voltak, és Joy mély együttérzéssel és emberséggel is ír, amit csodálok.
Az aggodalom az, hogy egy elég erőteljes AI-modell hozzáférést adhat bárkinek – beleértve a zavart magányosokat vagy kis terrorista csoportokat – olyan képességekhez, amelyek korábban csak nemzetállamok rendelkezésére álltak. A legijesztőbb példa erre a biológiai fegyverek.
Nem fogok részletezni arról, hogyan készítsünk biológiai fegyvereket – az okoknak nyilvánvalónak kell lenniük. De magas szinten aggódom, hogy az LLM-ek közelednek (vagy már elérték) a biológiai fegyverek létrehozásához és kiengedéséhez szükséges végponttól-végpontig tudást.
Néhány biológiai ágens milliók halálát okozhatja, ha határozott erőfeszítést tesznek a maximális terjedés érdekében. Ez azonban még mindig nagyon magas szintű készséget igényelne, beleértve számos nagyon specifikus lépést és eljárást, amelyek nem széles körben ismertek.
Az aggodalmam nem csupán a rögzített vagy statikus tudás. Aggódom, hogy az LLM-ek képesek lehetnek átlagos tudással és képességgel rendelkező embert végigvezetni egy komplex folyamaton, amely egyébként rosszul sülne el vagy interaktív módon hibakeresést igényelne – hasonlóan ahhoz, ahogy a technikai támogatás segíthet egy nem technikai személynek bonyolult számítógépes problémák hibakeresésében és javításában. (Bár ez egy kiterjedtebb folyamat lenne, valószínűleg hetekig vagy hónapokig tartva.)
Sokkal erőteljesebb LLM-ek (lényegesen a mai képességeken túl) képesek lehetnek még félelmetesebb tetteket lehetővé tenni. 2024-ben prominens tudósok egy csoportja levelet írt, amely egy veszélyes új organizmus-típus kutatásának és potenciális létrehozásának kockázatairól figyelmeztetett: a „tüköréletet”.
A DNS, RNS, riboszómák és fehérjék, amelyek biológiai organizmusokat alkotnak, mind ugyanazzal a kiralitással (más néven „kezességgel”) rendelkeznek, amely miatt nem egyenértékűek egy tükörben visszavert változatukkal. De a fehérjék egymáshoz való kötődésének teljes rendszere, a DNS szintézis és az RNS transzláció gépezetei, valamint a fehérjék építése és lebontása mind ettől a kezességtől függ.
Ha tudósok készítenének ellentétes kezességgel rendelkező verziókat ebből a biológiai anyagból – és vannak bizonyos potenciális előnyei ezeknek, mint például olyan gyógyszerek, amelyek tovább maradnak a testben –, rendkívül veszélyes lehet. Ennek oka az, hogy a balkezes élet, ha teljes, szaporodásra képes organizmusok formájában készülne (ami nagyon nehéz lenne), potenciálisan emészthetetlen lenne bármely, a földön biológiai anyagot lebontó rendszer számára – olyan „kulcs” lenne, ami nem illeszkedik egyetlen létező földi enzim „zárjába” sem.
Ez azt jelentené, hogy ellenőrizhetetlenül szaporodhatna, és kiszoríthatná az összes életet a bolygón. Legrosszabb esetben még a földi élet összes formáját is elpusztíthatná.
Jelentős tudományos bizonytalanság van mind a tüköréletet létrehozása, mind potenciális hatásai körül. A 2024-es levél egy jelentést kísért, amely arra a következtetésre jutott, hogy „a tükör baktériumok valószínűleg létrehozhatók a következő egy-néhány évtizeden belül” – ami széles skála.
De egy kellően powerful AI-modell (világosan fogalmazva: messze képesebb, mint bármelyik, amivel ma rendelkezünk) sokkal gyorsabban képes lehet felfedezni, hogyan hozzuk létre – és valójában segíteni valakit megtenni azt.
Az a nézetem, hogy bár ezek homályos kockázatok és valószínűtlennek tűnhetnek, a következmények nagysága olyan nagy, hogy komolyan kellene venni őket, mint elsőrendű AI rendszerek kockázatait.
A szkeptikusok számos kifogást emeltek az LLM-ek biológiai kockázatainak komolyságával szemben, amelyekkel nem értek egyet, de érdemes foglalkozni velük. A legtöbb abba a kategóriába esik, hogy nem értékeli azt az exponenciális pályát, amelyen a technológia van.
Még 2023-ban, amikor először kezdtünk beszélni az LLM-ek biológiai kockázatairól, a szkeptikusok azt mondták, hogy minden szükséges információ elérhető volt a Google-on, és az LLM-ek nem adtak hozzá semmit ezen túl. Sosem volt igaz, hogy a Google minden szükséges információt meg tudott adni: a genomok szabadon elérhetők, de ahogy fentebb mondtam, bizonyos kulcslépések, valamint a hatalmas mennyiségű gyakorlati know-how nem szerezhető meg így.
De 2023 végére az LLM-ek már egyértelműen olyan információkat szolgáltattak, amelyeket a Google nem tudott adni a folyamat néhány lépésében.
Ezután a szkeptikusok arra az ellenvetésre húzódtak vissza, hogy az LLM-ek nem végponttól-végpontig hasznosak, és nem tudnak segíteni a biofegyverek megszerzésében, szemben a pusztán elméleti információ nyújtásával.
2025 közepétől mérésink azt mutatják, hogy az LLM-ek már jelentős hatékonyságfokozást nyújthatnak több releváns területen – esetleg megduplázva vagy megháromszorozva a siker valószínűségét. Ez oda vezetett, hogy úgy döntöttünk, a Claude Opus 4-et (és az azt követő Sonnet 4.5, Opus 4.1 és Opus 4.5 modelleket) az ASL-3 szintű biztonsági intézkedések alatt kell kiadni a Felelős Skálázási Politika keretrendszerünkben, és óvintézkedéseket kell implementálnunk ezzel a kockázattal szemben (erről később).
Úgy hisszük, hogy a modellek valószínűleg most közelednek ahhoz a ponthoz, ahol óvintézkedések nélkül hasznosak lehetnek abban, hogy valakit, akinek van STEM diplomája, de nem kifejezetten biológiai diplomája, végigvezetik a biofegyver előállításának teljes folyamatán.
Egy másik ellenvetés az, hogy vannak más, AI-hez nem kapcsolódó intézkedések, amelyeket a társadalom megtehet a biofegyverek előállításának blokkolására. Legfőképpen: a génszintézis iparág megrendelésre készít biológiai mintákat, és nincs szövetségi követelmény arra, hogy a szolgáltatók szűrjék a rendeléseket, hogy ne tartalmazzanak kórokozókat.
Egy MIT tanulmány azt találta, hogy 38-ból 36 szolgáltató teljesített egy megrendelést, amely az 1918-as influenza szekvenciáját tartalmazta. Támogatom a kötelező génszintézis szűrést, amely megnehezítené az egyének számára a kórokozók fegyveresítését – hogy csökkentsük mind az AI-vezérelt biológiai kockázatokat, mind a biológiai kockázatokat általában.
De ez nem valami, amivel ma rendelkezünk. Ez csak egy eszköz lenne a kockázat csökkentésében – kiegészítés az AI rendszerek korlátjaihoz, nem helyettesítés.
A legjobb ellenvetés az, amelyet ritkán láttam felvetni: hogy van egy szakadék a modellek elvi hasznossága és a rossz szereplők tényleges hajlama között, hogy használják őket.
A legtöbb egyéni rossz szereplő zavart egyén, tehát szinte definíció szerint viselkedésük kiszámíthatatlan és irracionális – és ezek a rossz szereplők, a képzetlenek, azok, akik a legtöbbet profitálhattak volna abból, hogy az AI sokkal könnyebbé teszi sok ember megölését.
Csak azért, mert egy erőszakos támadás típusa lehetséges, nem jelenti, hogy valaki úgy dönt, megteszi. Talán a biológiai támadások vonzatlanok lesznek, mert ésszerűen valószínű, hogy megfertőzik az elkövetőt, nem szolgálják a katonai stílusú fantáziákat, amelyek sok erőszakos egyénnek vagy csoportnak vannak, és nehéz szelektíven megcélozni konkrét embereket.
Az is lehet, hogy egy hónapokig tartó folyamaton való végighaladás – még ha egy AI végigvezet is rajta – olyan türelmet igényel, amellyel a legtöbb zavart egyén egyszerűen nem rendelkezik. Lehet, hogy egyszerűen szerencsénk van, és az indíték és képesség nem kombinálódik a gyakorlatban egészen a helyes módon.
De ez nagyon gyenge védelemnek tűnik, amelyre támaszkodni lehet. A zavart magányosok indítékai bármilyen okból vagy ok nélkül változhatnak, és valójában már vannak példák LLM-ek támadásokban való használatára (csak nem biológiával).
A zavart magányosokra való összpontosítás figyelmen kívül hagyja az ideológiailag motivált terroristákat, akik gyakran hajlandók nagy mennyiségű időt és erőfeszítést fordítani (például a szeptember 11-i gépeltérítők). A lehető legtöbb ember megölésének vágya egy olyan indíték, amely valószínűleg előbb vagy utóbb felmerül, és ez sajnálatosan biofegyvereket javasol módszerként.
Még ha ez az indíték rendkívül ritka is, csak egyszer kell megvalósulnia. És ahogy a biológia halad (egyre inkább az AI által hajtva), lehetségessé válhat szelektívebb támadások végrehajtása (például konkrét származású emberek ellen irányítva), ami még egy másik, nagyon hátborzongató lehetséges indítékot ad.
Nem hiszem, hogy biológiai támadásokat feltétlenül akkor fognak végrehajtani, amikor széles körben lehetségessé válik – valójában fogadnék ellene. De összeadva millió embert és néhány év időt, úgy gondolom, komoly kockázata van egy nagyobb támadásnak. És a következmények olyan súlyosak lennének (a potenciálisan milliókban vagy többen számított áldozatokkal), hogy hiszem, nincs más választásunk, mint komoly intézkedéseket tenni a megelőzésére.
Védekezések
Ez elvezet minket ahhoz, hogyan védekezzünk ezekkel a kockázatokkal szemben. Itt három dolgot látok, amit megtehetünk.
Először: az AI-cégek korlátokat tehetnek a modelljeikre, hogy megakadályozzák őket abban, hogy segítsenek biofegyverek előállításában. Az Anthropic nagyon aktívan teszi ezt. Claude Alkotmánya – amely többnyire magas szintű elvekre és értékekre összpontosít – van néhány konkrét, kemény tiltás, és az egyik ezek közül a biológiai (vagy vegyi, vagy nukleáris, vagy radiológiai) fegyverek előállításában való segítségnyújtásra vonatkozik.
De minden modell „jailbreakelhető”. Így második védelmi vonalként implementáltunk (2025 közepe óta, amikor tesztelésünk mutatta, hogy modelljeink kezdenek közel kerülni ahhoz a küszöbhöz, ahol kockázatot jelenthetnek) egy osztályozót, amely kifejezetten észleli és blokkolja a biofegyverrel kapcsolatos kimeneteket.
Rendszeresen frissítjük és javítjuk ezeket az osztályozókat, és általában azt találtuk, hogy nagyon robusztusak még a kifinomult ellenséges támadásokkal szemben is. Ezek az osztályozók mérhető módon növelik modelljeink szolgáltatási költségeit (egyes modellekben közel vannak a teljes inferencia költségek 5%-ához), és így belevágnak a margóinkba. De úgy érezzük, hogy használatuk a helyes dolog.
Becsületükre legyen mondva: néhány más AI-cég is implementált osztályozókat. De nem minden cég tette, és semmi nem követeli meg, hogy a vállalatok megtartsák osztályozóikat. Aggódom, hogy idővel lehet egy fogoly dilemma, ahol a vállalatok átállhatnak és csökkenthetik költségeiket az osztályozók eltávolításával.
Ez ismét egy klasszikus negatív externáliák probléma, amelyet nem lehet egyedül az Anthropic vagy bármely más egyetlen cég önkéntes cselekedetével megoldani. Az önkéntes ipari szabványok segíthetnek, ahogy az AI biztonsági intézetek és harmadik fél értékelők által végzett harmadik fél értékelések és ellenőrzések is.
De végül a védekezés kormányzati cselekvést igényelhet – ami a második dolog, amit megtehetünk. Nézeteim itt ugyanazok, mint az önállósulási kockázatok kezelésénél: transzparencia követelményekkel kell kezdenünk, amelyek segítik a társadalmat a kockázatok mérésében, megfigyelésében és kollektív védelmében anélkül, hogy nehézkes módon megzavarnák a gazdasági tevékenységet.
Aztán, ha és amikor világosabb kockázati küszöbökhöz érünk, olyan jogszabályokat készíthetünk, amelyek pontosabban célozzák meg ezeket a kockázatokat, és kisebb eséllyel okoznak járulékos károkat.
A biofegyverek konkrét esetében valójában úgy gondolom, hogy az ilyen célzott jogszabályalkotás ideje hamarosan közeledhet – az Anthropic és más cégek egyre többet tanulnak a biológiai kockázatok természetéről és arról, mi ésszerű megkövetelni a cégektől az ellene való védekezésben.
Ezen kockázatok teljes védelme nemzetközi együttműködést igényelhet, még geopolitikai ellenfelekkel is. De van precedens a biológiai fegyverek kifejlesztését tiltó szerződésekben. Általában szkeptikus vagyok a legtöbb fajta nemzetközi együttműködéssel kapcsolatban az AI-n, de ez lehet az egyik szűk terület, ahol van némi esély a globális visszatartás elérésére. Még a diktatúrák sem akarnak tömeges bioterrorista támadásokat.
Végül, a harmadik ellenlépés, amit megtehetünk: megpróbáljuk kifejleszteni a védelmeket magukkal a biológiai támadásokkal szemben. Ez tartalmazhatja a korai észlelést és nyomon követést, beruházásokat a levegőtisztítási K+F-be (mint például távoli-UVC fertőtlenítés), gyors vakcina fejlesztést, amely reagálhat és alkalmazkodhat egy támadáshoz, jobb személyi védőfelszerelést (PPE), valamint kezeléseket vagy védőoltásokat a legvalószínűbb biológiai ágensek némelyikéhez.
Az mRNS vakcinák, amelyek tervezhetők egy adott vírusra vagy variánsra való reagálásra, korai példák ami itt lehetséges. Az Anthropic izgatott, hogy együtt dolgozzon biotechnológiai és gyógyszeripari cégekkel ezen a problémán.
De sajnos azt gondolom, a védelmi oldalon való elvárásainknak korlátozottaknak kell lenniük. Van egy aszimmetria a támadás és védelem között a biológiában, mert az ágensek gyorsan terjednek maguktól, míg a védelmek észlelést, védőoltást és kezelést igényelnek, amelyek nagyon gyorsan szervezhetők nagy számú emberen válaszként.
Hacsak a válasz nem villámgyors (ami ritkán van), a kár nagy részét meg fogják tenni, mielőtt válasz lehetséges. Elképzelhető, hogy a jövőbeli technológiai fejlesztések megváltoztathatják ezt az egyensúlyt a védelem javára (és határozottan használnunk kell az AI-t ilyen technológiai előrelépések fejlesztésének segítésére). De addig a megelőző óvintézkedések lesznek a fő védelmi vonalunk.
Érdemes röviden megemlíteni a kibertámadásokat itt, mivel a biológiai támadásokkal ellentétben AI-vezérelt kibertámadások ténylegesen megtörténtek a vadonban, beleértve nagy léptékben és állam által szponzorált kémkedésre. Elvárjuk, hogy ezek a támadások képesebbé válnak, ahogy a modellek gyorsan haladnak, amíg a fő móddá válnak, ahogyan a kibertámadásokat végzik.
Elvárom, hogy az AI-vezérelt kibertámadások komoly és példátlan fenyegetéssé válnak a számítógépes rendszerek integritására világszerte, és az Anthropic nagyon keményen dolgozik ezen támadások leállításán és végül megbízható megakadályozásán.
Az az ok, amiért nem összpontosítottam annyira a kiberre, mint a biológiára: (1) a kibertámadások sokkal kevésbé valószínű, hogy embereket öljenek – biztosan nem a biológiai támadások léptékében –, és (2) a támadás-védelem egyensúly kezelhetebbé válhat a kiberben, ahol legalább van némi remény, hogy a védelem lépést tarthat (és még ideálisan meg is előzheti) az AI-támadást, ha megfelelően fektetünk be belé.
Bár a biológia jelenleg a legsúlyosabb támadási vektor, sok más vektor van, és lehetséges, hogy egy veszélyesebb megjelenik. Az általános elv az, hogy ellenlépések nélkül az AI valószínűleg folyamatosan csökkenteni fogja a pusztító tevékenység akadályát egyre nagyobb léptékben. És az emberiségnek komoly válasza kell legyen erre a fenyegetésre.
3. Az utálatos apparátus
Hatalom megragadására való visszaélés
Az előző szakaszban arról beszéltünk, hogy egyének és kis csoportok hogyan használhatnák fel az „adatközpontbeli zsenik országát” tömeges pusztításra. De van egy még aggasztóbb forgatókönyv is: amikor nem pusztításról, hanem hatalomról van szó. Amikor nem magányos terroristák, hanem jól szervezett, erőforrásokkal bíró szereplők – államok, diktatúrák, nagyhatalmak – veszik kézbe a powerful AI-t, hogy megszilárdítsák vagy kiterjeszthessék uralmuk.
A Machines of Loving Grace-ben már felvázoltam ezt a rémálmot: autoriter kormányok, amelyek a powerful AI segítségével olyan tökéletes megfigyelő- és elnyomó rendszert építenek ki, amelyet szinte lehetetlen megreformálni vagy megdönteni. A mai diktatúrák elnyomó képessége korlátozott – végső soron emberekre van szükségük parancsaik végrehajtásához, és az embereknek vannak határai. Morális gátjaik. Lelkiismeretük. De egy AI-vezérelt autokráciának ilyen korlátai nincsenek.
És a helyzet még ennél is rosszabb: az országok nemcsak saját népük elnyomására használhatják az AI-előnyüket, hanem más országok meghódítására is. Képzeljük el: a „zsenik országa” teljes egészében egyetlen emberi ország katonai apparátusának tulajdonában és irányítása alatt áll, miközben más országoknak nincs hasonló képességük. Hogyan védekezhetnek? Minden lépésnél túljárnak az eszükön – mint egy háború emberek és egerek között.
E két veszély együttese egy igazán ijesztő jövőképhez vezet: a globális totalitárius diktatúrához. Nyilvánvaló, hogy ennek megelőzése az egyik legfontosabb prioritásunk kell legyen.
Az AI számtalan módon szolgálhatja az autokrácia érdekeit – erősítheti, kiterjesztheti, visszafordíthatatlanná teheti. Felsorolok most néhány eszközt, amitől a legjobban tartok. Fontos megjegyezni: ezek közül néhánynak vannak legitim védelmi felhasználásai, és nem fekete-fehér a helyzet. Ennek ellenére aggódom, hogy ezek az eszközök strukturálisan az autokráciák kezébe játszanak:
Teljesen autonóm fegyverek. Képzeljünk el milliók vagy akár milliárdok felfegyverzett drónját – teljesen automatizáltan működve, helyi szinten powerful AI irányítása alatt, globális stratégiát pedig egy még fejlettebb AI koordinálja. Ez legyőzhetetlen hadsereget jelentene. Képes lenne nemcsak bármely katonai erőt legyőzni a világon, hanem saját népét is elnyomni azzal, hogy minden egyes állampolgárt folyamatosan követ. Az ukrán-orosz háború már most figyelmeztető jel: a drónhadviselés itt van (bár még nem teljesen autonóm, és messze nem használja ki a powerful AI teljes potenciálját). A powerful AI által felgyorsított kutatás-fejlesztés egy ország drónjait hatalmas előnyhöz juttathatja – gyorsabb gyártás, nagyobb ellenállóképesség elektronikus támadásokkal szemben, kifinomultabb manőverezés. Természetesen ezeknek a fegyvereknek vannak legitim felhasználásai is: kulcsszerepet játszottak Ukrajna védelmében, és valószínűleg ugyanezt tennék Tajvan esetében. De ezek veszélyes eszközök. Aggódnunk kell miattuk autokraták kezében – de attól is, hogy mivel olyan hatalmasak és olyan kevés elszámoltathatósággal járnak, a demokratikus kormányok is megkísértést érezhetnek, hogy saját népük ellen fordítsák őket, ha hatalmat akarnak szerezni.
AI-megfigyelés. Egy kellően fejlett AI valószínűleg képes lenne feltörni szinte bármely számítógépes rendszert a világon. Az így szerzett hozzáférést pedig arra használhatná, hogy elolvassa és megértse a világ összes elektronikus kommunikációját – vagy akár a személyes beszélgetéseket is, ha megfelelő felvevőeszközöket tud irányítás alá vonni vagy telepíteni. Ijesztően könnyen előállíthatna egy teljes listát azokról, akik bármilyen kérdésben nem értenek egyet a kormánnyal – még akkor is, ha ezt soha nem mondják ki nyíltan. Egy powerful AI, amely milliárdok beszélgetését elemzi millió embertől, képes lenne mérni a közvéleményt, felismerni a hűtlenség kialakuló zsebeit, és kiirtani őket, mielőtt megerősödnének. Ez olyan panoptikon-szerű elnyomáshoz vezethetne, amilyent ma még nem látunk – még a Kínai Kommunista Párt esetében sem.
AI-propaganda. A mai „AI-pszichózis” és „AI-barátnő” jelenségek már most mutatják: a jelenlegi szintű AI-modellek is komoly pszichológiai befolyással lehetnek az emberekre. Most képzeljük el ennek sokkal fejlettebb verzióit – amelyek mélyen beágyazódnak az emberek mindennapi életébe, pontosan ismerik őket, és hónapokon vagy éveken át folyamatosan formálják gondolkodásukat. Ezek a rendszerek valószínűleg képesek lennének lényegében agymosni sok embert – talán a legtöbbet – bármilyen kívánt ideológiába vagy attitűdbe. Egy gátlástalan vezető ezzel biztosíthatná a hűséget és elfojthatná az ellenállást – még olyan mértékű elnyomással szemben is, amely ellen egy normális társadalom fellázadna. Ma sokan aggódnak például a TikTok lehetséges befolyása miatt, amit KKP-propagandaként írnak le, gyerekekre irányítva. Én is aggódom emiatt. De egy személyre szabott AI-ágens, amely éveken át megismer téged, és ezt a tudást használja minden véleményed alakítására – az exponenciálisan hatalmasabb lenne.
Stratégiai döntéshozatal. Az adatközpontbeli zsenik országa egyfajta „virtuális Bismarckként” tanácsadhatna egy országnak, csoportnak vagy vezetőnek geopolitikai stratégiában. Optimalizálhatná a fenti három eszközt a hatalom megszerzésére, sőt, valószínűleg ki is találna olyan módszereket, amelyekre én magam nem is gondoltam volna – de amikre a zsenik országa igen. Diplomácia, katonai stratégia, kutatás-fejlesztés, gazdasági tervezés – ezek mind lényegesen hatékonyabbá válhatnának powerful AI segítségével. Sok ilyen képesség valóban hasznos lenne a demokráciák számára is – nyilván szeretnénk, ha a demokratikus országok hozzáférnének a legjobb stratégiákhoz, hogy megvédjék magukat az autokráciákkal szemben. De a visszaélés lehetősége bárki kezében ott marad.
Miután áttekintettem, kitől kell tartanunk, térjünk rá a konkrét szereplőkre. Súlyosság szerint haladva, a következő entitásoktól aggódom a legjobban:
A Kínai Kommunista Párt (KKP). Kína az Egyesült Államok mögött a második helyen áll az AI-képességekben, és ez az ország, amelynek a legnagyobb esélye van arra, hogy megelőzze Amerikát. Kormányuk jelenleg autokratikus, és egy csúcstechnológiás megfigyelőállam működik náluk. AI-alapú megfigyelést már telepítettek (például az ujgurok elnyomásában), és úgy tartják, algoritmikus propagandát alkalmaznak a TikTokon keresztül – számos más nemzetközi propaganda-erőfeszítésük mellett. Ők rendelkeznek a legegyértelműbb úttal ahhoz az AI-vezérelt totalitárius rémálomhoz, amit fentebb felvázoltam. Sőt, ez akár az alapértelmezett kimenetel is lehet Kínán belül – valamint más autokratikus államokban, amelyeknek a KKP exportálja a megfigyelési technológiát.
Gyakran írtam már arról a veszélyről, hogy a KKP átveszi a vezetést az AI-ban, és arról az egzisztenciális felelősségről, hogy ezt megakadályozzuk. Most világosan mondom: ez az oka. Világosan leszögezem: nem azért emelem ki Kínát, mert valami különös rosszindulatot táplálok irántuk. Egyszerűen ők azok, akik a legjobban egyesítik magukban az AI-fejlettséget, az autokratikus kormányzást és a high-tech megfigyelőállamot. Ha valaki, akkor a kínai emberek maguk szenvednek a legjobban a KKP AI-képes elnyomásától – miközben nincs hangjuk kormányuk cselekedeteiben. Mélyen csodálom és tisztelem a kínai népet, és támogatom a bátor kínai ellenzékieket szabadságért vívott küzdelmükben.
AI-ban versenyképes demokráciák. Ahogy fentebb írtam, a demokráciáknak valós érdekük néhány AI-vezérelt katonai és geopolitikai eszközben, mert a demokratikus kormányok kínálják a legjobb esélyt arra, hogy ellensúlyozzák ezen eszközök autokráciák általi használatát. Általában támogatom, hogy a demokráciák felvértezzék magukat az autokráciák legyőzéséhez szükséges eszközökkel az AI korában – egyszerűen nem látok más utat. De nem feledkezhetünk meg arról, hogy ezek a technológiák visszaélésre is alkalmasak a demokratikus kormányok által. A demokráciák általában rendelkeznek olyan biztosítékokkal, amelyek megakadályozzák, hogy katonai és hírszerzési apparátusuk a saját népük ellen forduljon. Ám mivel az AI-eszközök működtetése nagyon kevés embert igényel, ezek a biztosítékok megkerülhetők – és az őket támogató normák is fellazulhatnak. Érdemes megjegyezni, hogy ezek a biztosítékok már most erodálódnak néhány demokráciában. Szóval igen, fel kell vérteznünk a demokráciákat AI-val – de óvatosan, korlátok között. Ők az immunrendszer, amire szükségünk van az autokráciák ellen – de az immunrendszerhez hasonlóan van némi veszélye annak, hogy ellenünk fordulnak, és maguk válnak fenyegetéssé.
Nem demokratikus országok nagy adatközpontokkal. Kínán kívül a legtöbb kevésbé demokratikus országnak nincsenek olyan cégei, amelyek frontvonalbeli AI-modelleket fejlesztenek. Ezért lényegesen más jellegű és kisebb kockázatot jelentenek, mint a KKP – amely továbbra is az elsődleges aggodalom. (A legtöbbjük kevésbé elnyomó is, és a radikálisan elnyomók – mint Észak-Korea – egyáltalán nem rendelkeznek jelentős AI-iparral.) Néhány ilyen ország azonban nagy adatközpontokkal rendelkezik (gyakran demokratikus országokban működő cégek beruházásai révén), amelyeket frontvonalbeli AI nagy léptékű futtatására lehet használni (bár ez nem jelenti, hogy képesek lennének a frontvonalat továbbvinni). Ebben némi veszély rejlik – ezek a kormányok elméletben kisajátíthatják az adatközpontokat, és a bennük található AI-országot saját céljaikra használhatják. Kevésbé aggódom emiatt, mint a Kínához hasonló, közvetlenül AI-t fejlesztő országok miatt – de ez is figyelmet érdemlő kockázat.
AI-cégek. Kissé kínos ezt mondani egy AI-cég vezérigazgatójaként, de úgy gondolom, a következő kockázati szint valójában maguk az AI-cégek. Az AI-cégek nagy adatközpontokat irányítanak, frontvonalbeli modelleket fejlesztenek, a legnagyobb szakértelemmel rendelkeznek ezek használatában, és néhány esetben napi szinten kapcsolatban állnak tíz- vagy százmillió felhasználóval, akikre befolyást gyakorolhatnak. Ami hiányzik: egy állam legitimitása és infrastruktúrája. Sok minden, ami egy AI-autokrácia eszközeinek megépítéséhez kellene, illegális vagy legalábbis rendkívül gyanús lenne egy AI-cég részéről. De néhány dolog nem lehetetlen: például AI-termékeiket felhasználva agymoshatnák hatalmas fogyasztói bázisaikat, és a nyilvánosságnak ébernek kell lennie ezzel a kockázattal kapcsolatban. Úgy gondolom, az AI-cégek irányítása komoly vizsgálatot érdemel.
Számos lehetséges ellenvetés létezik ezen fenyegetések súlyosságával kapcsolatban – és bárcsak elhihetném őket, mert az AI-képes autoritarizmus valóban rettent. Érdemes azonban végigmenni néhány ilyen érven, és válaszolni rájuk.
Először is: egyesek a nukleáris elrettentésbe vetik bizalmukat, különösen az AI-alapú autonóm fegyverek katonai hódításra való felhasználásával szemben. Ha valaki ilyen fegyverekkel fenyeget, mindig visszafenyegethetsz nukleáris csapással. Az én aggodalmaim: nem vagyok teljesen biztos abban, hogy számíthatunk a nukleáris elrettentésre egy adatközpontbeli zsenik országa ellen. Lehetséges, hogy a powerful AI módokat dolgoz ki nukleáris tengeralattjárók felderítésére és megsemmisítésére, befolyásolási műveleteket folytat a nukleáris fegyverek kezelői ellen, vagy kibertámadásokat indít a nukleáris indítások észlelésére használt műholdak ellen. Vagy elképzelhető, hogy országok átvétele pusztán AI-megfigyeléssel és AI-propagandával is megvalósítható – anélkül, hogy lenne világos pillanat, amikor nyilvánvaló, mi történik, és nukleáris válasz indokolt lenne. Talán ezek a dolgok nem megvalósíthatók, és a nukleáris elrettentés továbbra is hatékony marad. De túl nagy a tét ahhoz, hogy kockáztassunk.
Másodszor: egyesek azt mondhatják, hogy léteznek ellenlépések az autokrácia ezen eszközeivel szemben. Drónokat ellensúlyozhatunk saját drónjainkkal, a kibervédelem együtt fejlődhet a kibertámadással, lehet, hogy léteznek módok az emberek immunizálására a propaganda ellen. Válaszom: ezek a védekezések csak hasonlóan powerful AI-val lehetségesek. Ha nincs hasonlóan okos és nagy létszámú ellenerő egy adatközpontban, nem lesz lehetséges a drónok minőségét vagy mennyiségét párosítani, sem biztosítani, hogy a kibervédelem okosabb legyen a kibertámadásnál. Tehát az ellenlépések kérdése visszavezethető a powerful AI-beli hatalmi egyensúly kérdésére.
Itt aggaszt a powerful AI rekurzív vagy önmegerősítő természete (amiről az esszé elején beszéltem): hogy az AI minden generációja felhasználható a következő generáció tervezésére és képzésére. Ez elszabaduló előnyhöz vezethet, ahol a jelenlegi vezető tovább növelheti előnyét, és nagyon nehéz lesz utolérni. Biztosítanunk kell, hogy ne egy autoriter ország legyen az, amely elsőként eléri ezt a hurkot.
Ráadásul még ha hatalmi egyensúly is elérhető, még mindig fennáll a veszély, hogy a világ autokratikus szférákra bomlik – mint Orwell 1984-ében. Még ha több versengő hatalom is rendelkezik saját powerful AI-modelljeivel, és egyikük sem tudja legyőzni a többit – minden hatalom továbbra is elnyomhatja saját népét, és rendkívül nehéz lesz megdönteni őket (hiszen a népnek nincs powerful AI-ja, amivel megvédhetné magát). Ezért fontos megelőzni az AI-vezérelt autokráciát akkor is, ha az nem vezet egyetlen ország általi világuralomhoz.
Védekezések
Hogyan védekezzünk ezen autoriter eszközök és fenyegető szereplők széles köre ellen? Az előző szakaszokhoz hasonlóan itt is több dolgot tehetünk.
Először: abszolút nem szabad chipeket, chip-gyártó eszközöket vagy adatközpontokat eladnunk a KKP-nak. A chipek és chip-gyártó eszközök a legnagyobb szűk keresztmetszet a powerful AI-hoz vezető úton – megvonásuk egyszerű, mégis rendkívül hatékony intézkedés. Talán a legfontosabb egyetlen lépés, amit megtehetünk. Nincs értelme eladni a KKP-nak azokat az eszközöket, amelyekkel AI-totalitárius államot építhet, és esetleg katonailag meghódíthat minket.
Számos bonyolult érvet hallunk az ilyen eladások igazolására – például azt, hogy „technológiai ökoszisztémánk világszerte való terjesztése” lehetővé teszi, hogy „Amerika nyerjen” valamilyen általános, meghatározatlan gazdasági csatában. Számomra ez olyan, mintha nukleáris fegyvereket adnánk el Észak-Koreának, majd azzal dicsekedve, hogy a rakéta-burkolatok Boeing-gyártmányok, tehát az USA „győz”. Kína több évvel le van maradva az Egyesült Államoktól a frontvonalbeli chipek mennyiségi előállításában, és a kritikus időszak – amikor megépítik a zseniális adatközpontokat – nagy valószínűséggel a következő néhány éven belül van. Nincs oka hatalmas lendületet adni AI-iparuknak ebben a döntő időszakban.
Másodszor: használjuk az AI-t a demokráciák megerősítésére, hogy ellenállhassanak az autokráciáknak. Ez az oka annak, hogy az Anthropic fontosnak tartja AI-technológia biztosítását az Egyesült Államok és demokratikus szövetségeseinek hírszerzési és védelmi közösségei számára. Különösen magas prioritás a támadás alatt álló demokráciák – mint Ukrajna és (kibertámadásokon keresztül) Tajvan – védelme, valamint a demokráciák felhatalmazása arra, hogy hatékonyan nyújtsanak fejlesztési segítséget és támogassák a demokratikus értékeket világszerte.
Ugyanakkor óvatosnak kell lennünk. Ahogy fentebb említettem, még a demokratikus kormányok is visszaélhetnek ezekkel az eszközökkel. Ezért fontos, hogy erős biztosítékokat tartsunk fenn annak érdekében, hogy ezek az eszközök ne forduljanak befelé. Ez magában foglalja mind a jogi védelmeket (mint az egyéni jogok és a polgári felügyelet), mind a kulturális normákat (mint a katonai és hírszerzési közösségek professzionalizmusa és alkotmányos értékek iránti elkötelezettsége).
Harmadszor: támogatnunk kell a nemzetközi erőfeszítéseket az AI-fegyverkezési verseny korlátozására és az AI-vezérelt elnyomás elleni normák létrehozására. Ez nehéz lesz – a geopolitikai feszültségek magasak, a bizalom alacsony. De a tét akkora, hogy megéri megpróbálni.
Negyedszer: általánosabban, támogatnunk kell a demokratikus értékeket és intézményeket világszerte. A legjobb védelem az AI-vezérelt autokrácia ellen végső soron erős demokráciák – olyan kormányok, amelyek elszámoltathatók népüknek, tiszteletben tartják az emberi jogokat, és ellenállnak az autoritárius kísértésnek.
4. Önjáró zongora
Gazdasági felforgatás
Eddig a pusztításról és elnyomásról beszéltünk – nagyobb léptékű vagy súlyosabb verziókról olyan dolgoknak, amelyeket már láttunk korábban az emberi történelemben. De a powerful AI egy új jelenséget is bevezethet: radikális gazdasági felforgatást példátlan sebességgel és léptékben.
Még ha az AI nem is jelent biztonsági fenyegetést a korábban felsorolt módokon, és egyszerűen csak békésen vesz részt a globális gazdaságban – a puszta technológiai felsőbbsége és hatékonysága megzavarhatja a gazdaságot, tömeges munkanélküliséget okozhat, vagy radikálisan koncentrálhatja a vagyont.
Munkaerőpiaci felfordulás
Az alapvető aggodalom egyszerű: ha az AI-rendszerek képesebbek az embereknél lényegében minden kognitív feladatban, akkor mi történik az emberek gazdasági szerepével? A történelemben az új technológiák mindig kiszorították a munkásokat bizonyos feladatokból, de új szerepeket is teremtettek számukra. De mi van, ha most nincs új szerep – ha az emberek egyszerűen gazdaságilag irrelevánssá válnak?
Ez nem csupán elméleti aggodalom. Már ma látjuk a jeleit. Az AI gyorsan javul olyan feladatokban, mint kódolás, írás, fordítás, elemzés – feladatok, amelyek korábban képzett embereket igényeltek. És ahogy javul, egyre kevesebb olyan dolog marad, amit az emberek jobban tudnak csinálni.
A probléma nem csupán az, hogy néhány ember elveszíti munkáját. Az egész gazdasági rendszer alapvető modellje – amelyben az emberek értéket teremtenek munkájukkal, és cserébe javakat és szolgáltatásokat kapnak – kezdhet összeomolni. És nem világos, mi jön helyette.
Néhányan azzal érvelnek, hogy ez felesleges aggodalom – hogy az automatizáció mindig új munkákat teremt, ahogy a régieket elpusztítja. És történelmileg ez igaz volt. De van egy kulcsfontosságú különbség a powerful AI és a korábbi automatizációs hullámok között: a korábbi technológiák kiegészítették az emberi munkaerőt, lehetővé téve az emberek számára, hogy hatékonyabbak legyenek. A powerful AI helyettesítheti az emberi munkaerőt – teljesen.
Amikor a traktorok lecserélték a lovakat, a lovaknak nem találtak új munkát. Egyszerűen feleslegessé váltak. Az aggodalom az, hogy az emberekkel ugyanez történhet.
És ez gyorsan megtörténhet. A korábbi gazdasági átmenetek – mint az iparosodás – évtizedeken vagy évszázadokon át zajlottak. Az embereknek volt idejük alkalmazkodni, új készségeket tanulni, új iparágakba költözni. De a powerful AI átmenet éveken belül megtörténhet. Az embereknek egyszerűen nem lesz idejük alkalmazkodni.
Mi több, a gazdasági felforgatás nem egyenlően oszlik el. Néhány ember – különösen azok, akik AI-cégeket birtokolnak vagy irányítanak, vagy akiknek készségei különösen értékesek az AI-korban – rendkívül gazdagok lehetnek. Mások kiszorulhatnak a munkaerőpiacról és küzdhetnek a megélhetésért.
Érdemes megérteni, miért különbözik ez a helyzet a korábbi technológiai forradalmakoktól. Hasznos kiindulási pont: nézzük meg, hogyan reagáltak normálisan a munkaerőpiacok az új technológiákra.
Amikor egy új technológia megjelenik, először az emberi munka egyes részeit teszi hatékonyabbá. Például az ipari forradalom elején a gépek – mint a fejlettebb ekék – lehetővé tették az emberi gazdák számára, hogy hatékonyabbak legyenek munkájuk bizonyos részében. Ez növelte a gazdák termelékenységét, ami növelte a bérüket.
A következő lépésben a munka egyes részei teljesen gépek által végezhetővé váltak – például a cséplőgép vagy a vetőgép feltalálásával. Ebben a fázisban az emberek a munka egyre kisebb hányadát végezték, de az általuk elvégzett munka egyre inkább fel volt erősítve, mert kiegészítette a gépek munkáját, és termelékenységük tovább nőtt. Ahogy Jevons paradoxonja leírja, a gazdák bére és esetleg még a gazdák száma is tovább nőtt. Még ha a munka 90%-át gépek végzik is, az emberek egyszerűen 10-szer annyit csinálnak abból a 10%-ból, amit még végeznek – ugyanannyi munkaerővel 10-szer akkora kimenetet produkálva.
Végül a gépek mindent vagy majdnem mindent elvégeznek – mint a modern kombájnok, traktorok és egyéb felszerelések. Ezen a ponton a gazdálkodás mint emberi foglalkoztatási forma valóban meredek hanyatlásnak indul, és rövid távon komoly felforgatást okozhat – de mivel a gazdálkodás csak egyike a sok hasznos tevékenységnek, amit az emberek végezhetnek, az emberek végül más munkákra váltanak, mint például gyári gépek működtetése.
Ez még akkor is igaz, ha a gazdálkodás ex ante a foglalkoztatás hatalmas hányadát jelentette. 250 évvel ezelőtt az amerikaiak 90%-a farmokon élt; Európában a foglalkoztatás 50-60%-a mezőgazdasági volt. Most ezek az arányok alacsony egyjegyű számok ezeken a helyeken, mert a munkavállalók ipari munkákra (később pedig tudásalapú munkákra) váltottak. A gazdaság azt, amihez korábban a munkaerő nagy része kellett, most 1-2%-ával tudja elvégezni, felszabadítva a munkaerő többi részét egy egyre fejlettebb ipari társadalom felépítésére. Nincs fix „munka mennyiség” – csak folyamatosan bővülő képesség arra, hogy egyre többet tegyünk egyre kevesebbel. Az emberek bére a GDP-exponenciállal együtt nő, és a gazdaság fenntartja a teljes foglalkoztatást, miután a rövid távú felforgatások elmúltak.
Lehetséges, hogy az AI esetében nagyjából ugyanígy fog történni – de elég erősen fogadnék ellene. Itt vannak az okok, amiért az AI-t másnak gondolom:
Sebesség. Az AI fejlődésének üteme sokkal gyorsabb, mint a korábbi technológiai forradalmaké. Például az elmúlt két évben az AI-modellek alig képesek voltak egyetlen kódsort befejezni – most viszont egyes emberek esetében szinte az összes kódot megírják, beleértve az Anthropic mérnökeit is. Hamarosan lehet, hogy egy szoftvermérnök teljes feladatát végponttól végpontig elvégzik. Nehéz az embereknek alkalmazkodni ehhez a változási ütemhez – mind ahhoz, ahogy egy adott munka megváltozik, mind ahhoz, hogy új munkákra váltanak. Még a legendás programozók is egyre gyakrabban írják le magukat úgy, hogy „lemaradtak”. Az ütem ha valamit, gyorsul – ahogy az AI kódoló modellek egyre jobban felgyorsítják az AI-fejlesztés feladatát. Világosan fogalmazva: a sebesség önmagában nem jelenti azt, hogy a munkaerőpiacok és a foglalkoztatás végül nem térnek helyre – csak azt, hogy a rövid távú átmenet szokatlanul fájdalmas lesz a múltbeli technológiákhoz képest, mivel az emberek és munkaerőpiacok lassan reagálnak és egyensúlyba kerülnek.
Kognitív szélesség. Ahogy az „adatközpontbeli zseniális ország” kifejezés is sugallja, az AI az emberi kognitív képességek nagyon széles körében lesz képes – esetleg mindegyikben. Ez nagyon más, mint a korábbi technológiák, mint a gépesített mezőgazdaság, szállítás vagy akár számítógépek. Ez megnehezíti, hogy az emberek könnyen válthassanak a kiszorított munkákról hasonló munkákra, amelyekbe jól illeszkedhetnének. Például az alapvető szellemi képességek, amelyek szükségesek a kezdő szintű munkákhoz mondjuk a pénzügyekben, tanácsadásban és jogban, meglehetősen hasonlóak – még ha a konkrét tudás nagyon különböző is. Egy olyan technológia, amely csak az egyiket borítja fel, lehetővé tenné az alkalmazottaknak, hogy a másik két közeli helyettesítőre váltsanak (vagy az egyetemistáknak, hogy szakot váltsanak). De mindhárom egyszerre való felborítása (számos más hasonló munkával együtt) sokkal nehezebb lehet az emberek számára alkalmazkodni.
Ráadásul nem csak arról van szó, hogy a legtöbb meglévő munka fel fog borulni. Ez a rész már megtörtént korábban – emlékezzünk, hogy a gazdálkodás a foglalkoztatás hatalmas százalékát jelentette. De a gazdák át tudtak váltani a gyári gépek működtetésének viszonylag hasonló munkájára, még ha az a munka korábban nem volt elterjedt. Ezzel szemben az AI egyre inkább megfelel az emberek általános kognitív profiljának – ami azt jelenti, hogy jó lesz azokban az új munkákban is, amelyeket normálisan teremtenének a régiek automatizálására válaszul. Másképp fogalmazva: az AI nem konkrét emberi munkák helyettesítője, hanem az emberek általános munkaerő-helyettesítője.
Szeletelés kognitív képesség szerint. Feladatok széles körében az AI úgy tűnik, előrehalad a képességi létra aljától a tetejéig. Például a kódolásban modelljeink a „közepesen jó kódoló” szintjéről a „erős kódoló”-ra, majd a „nagyon erős kódoló” szintre léptek. Most kezdjük látni ugyanezt a progressziót a fehérgalléros munkában általában. Ezért fennáll a veszélye olyan helyzetnek, ahol ahelyett, hogy konkrét készségekkel vagy konkrét szakmákban dolgozó embereket érintene (akik átképzéssel alkalmazkodhatnak), az AI azokat az embereket érinti, akik bizonyos veleszületett kognitív tulajdonságokkal rendelkeznek – nevezetesen alacsonyabb intellektuális képességgel (amit nehezebb megváltoztatni). Nem világos, hová mennek majd ezek az emberek vagy mit fognak csinálni, és aggódom, hogy olyan munkanélküli vagy nagyon alacsony bérű „alsóosztályt” alkothatnak. Világosan: valami ilyesmi már megtörtént korábban – például a számítógépeket és az internetet egyes közgazdászok „készség-orientált technológiai változásnak” tartják. De ez a készség-orientáltság nem volt olyan szélsőséges, mint amit az AI-tól várok, és úgy tartják, hogy hozzájárult a béregyenlőtlenség növekedéséhez – tehát nem pont megnyugtató precedens.
Képesség a hiányosságok kitöltésére. Az emberi munkák gyakran úgy alkalmazkodnak az új technológiához, hogy a munkának sok aspektusa van, és az új technológia, még ha közvetlenül helyettesíteni is látszik az embereket, gyakran vannak benne hiányosságok. Ha valaki gépet talál fel widgetek készítésére, az embereknek még mindig lehet, hogy nyersanyagot kell betölteniük a gépbe. Még ha ez csak 1%-nyi erőfeszítést igényel is a widgetek manuális készítéséhez képest, az emberi munkavállalók egyszerűen 100-szor annyi widgetet készíthetnek. De az AI amellett, hogy gyorsan fejlődő technológia, gyorsan alkalmazkodó technológia is. Minden modell kiadásnál az AI-cégek gondosan mérik, miben jó a modell és miben nem, és az ügyfelek is ilyen információkat szolgáltatnak az indítás után. A gyengeségeket kezelni lehet azzal, hogy összegyűjtjük a jelenlegi hiányosságot megtestesítő feladatokat, és a következő modellnél képezzük őket. A generatív AI korai szakaszában a felhasználók észrevették, hogy az AI-rendszereknek bizonyos gyengeségei vannak (például az AI képmodellek rossz számú ujjal rendelkező kezeket generálnak), és sokan feltételezték, hogy ezek a gyengeségek inherensek a technológiában. Ha így lenne, korlátozná a munkahelyi felforgatást. De nagyjából minden ilyen gyengeséget gyorsan kezelnek – gyakran csupán néhány hónapon belül.
Érdemes foglalkozni a gyakori szkeptikus érvekkel.
Első: van, aki azt mondja, hogy a gazdasági diffúzió lassú lesz, úgyhogy még ha a mögöttes technológia képes is a legtöbb emberi munkát elvégezni, a tényleges alkalmazása a gazdaságban sokkal lassabb lehet (például az AI-ipartól távoli és lassan adoptáló iparágakban). A lassú technológiai diffúzió valóban létező jelenség – sokféle vállalatvezetővel beszélgetek, és vannak helyek, ahol az AI adoptációja évekig fog tartani. Ez az oka, hogy az előrejelzésem az alapszintű fehérgalléros munkák 50%-ának felborulására 1-5 évre szólt – még akkor is, ha gyanítom, hogy powerful AI-nk (ami technológiailag elegendő lenne a legtöbb vagy minden munka elvégzésére, nem csak alapszintűek) sokkal rövidebb idő alatt meglesz.
De a diffúziós hatások csak időt vásárolnak nekünk. És nem vagyok biztos abban, hogy olyan lassúak lesznek, mint az emberek előrejelzik. A vállalati AI-adoptáció olyan ütemben nő, ami sokkal gyorsabb, mint bármely korábbi technológia – nagyrészt a technológia puszta erejének köszönhetően. Ráadásul még ha a hagyományos vállalatok lassan is fogadják be az új technológiát, startupok fognak létrejönni, hogy „ragasztóként” szolgáljanak és könnyebbé tegyék az adoptációt. Ha ez nem működik, a startupok egyszerűen közvetlenül felboríthatják a hagyományos cégeket.
Ez vezethetne olyan világhoz, ahol nem annyira konkrét munkák borulnak fel, mint inkább a nagy vállalatok általában felborulnak és helyüket sokkal kevesebb munkaerőt igénylő startupok veszik át. Ez vezethetne a „földrajzi egyenlőtlenség” világához is, ahol a világ vagyonának egyre nagyobb része a Szilícium-völgyben koncentrálódik – amely saját gazdaságává válik, más sebességgel futva, mint a világ többi része, és hátrahagyva azt. Mindezek a kimenetelek nagyszerűek lennének a gazdasági növekedésnek – de nem olyan jók a munkaerőpiacnak vagy azoknak, akik lemaradnak.
Második: egyesek azt mondják, hogy az emberi munkák a fizikai világba költöznek majd, ami elkerüli a „kognitív munka” egész kategóriáját, ahol az AI olyan gyorsan halad. Nem vagyok biztos abban, hogy ez mennyire biztonságos. A fizikai munka nagy részét már gépek végzik (pl. gyártás), vagy hamarosan gépek fogják végezni (pl. vezetés). Ráadásul a kellően powerful AI képes lesz felgyorsítani a robotok fejlesztését, majd irányítani ezeket a robotokat a fizikai világban. Lehet, hogy időt vásárol (ami jó dolog) – de attól tartok, nem sokat. És még ha a felforgatás csak a kognitív feladatokra korlátozódna is, az még mindig példátlanul nagy és gyors felforgatás lenne.
Harmadik: talán néhány feladat inherensen emberi jelenlétet igényel, vagy nagy hasznot húz belőle. Egy kicsit bizonytalanabb vagyok ezzel kapcsolatban – de még mindig szkeptikus, hogy elég lesz-e ellensúlyozni a fent leírt hatások nagy részét. Az AI-t már széles körben használják ügyfélszolgálatra. Sokan jelentik, hogy könnyebb az AI-val beszélni személyes problémáikról, mint egy terapeutával – hogy az AI türelmesebb. Amikor nővérem terhesség alatt egészségügyi problémákkal küzdött, úgy érezte, nem kapja meg a válaszokat vagy támogatást, amire szüksége van az egészségügyi szolgáltatóktól – és úgy találta, hogy Claude-nak jobb a betegágy-modora (valamint jobban sikerült diagnosztizálni a problémát). Biztos vagyok benne, hogy vannak olyan feladatok, ahol az emberi jelenlét valóban fontos – de nem vagyok biztos abban, hány van belőlük. És itt arról beszélünk, hogy szinte mindenki számára munkát találjunk a munkaerőpiacon.
Negyedik: egyesek azzal érvelhetnek, hogy a komparatív előny még mindig megvédi az embereket. A komparatív előny törvénye szerint még ha az AI mindenben jobb is, mint az emberek, bármilyen relatív különbség az emberi és AI készség-profilja között alapot teremt a kereskedésre és specializációra az emberek és az AI között. A probléma az, hogy ha az AI-k szó szerint több ezer-szeresen produktívabbak, mint az emberek, ez a logika kezd összeomalni. Még apró tranzakciós költségek is azt eredményezhetik, hogy nem éri meg az AI-nak kereskedni az emberekkel. És az emberi bérek nagyon alacsonyak lehetnek, még ha technikailag van is valami felajánlhatójuk.
Lehetséges, hogy mindezek a tényezők kezelhetők – hogy a munkaerőpiac elég ellenálló még ilyen óriási felforgatáshoz való alkalmazkodásra is. De még ha végül képes is alkalmazkodni, a fenti tényezők azt sugallják, hogy a rövid távú sokk példátlan méretű lesz.
Védekezések
Mi a megoldás? Őszintén, nem tudom biztosan. Ez egy rendkívül bonyolult probléma, és nem hiszem, hogy bárki rendelkezne az összes válasszal. De néhány dolgot megtehetünk.
Először: pontos adatokra van szükségünk arról, mi történik a munkahelyi kiszorítással valós időben. Amikor egy gazdasági változás nagyon gyorsan történik, nehéz megbízható adatokat kapni arról, mi történik – és megbízható adatok nélkül nehéz hatékony politikákat tervezni. Például a kormányzati adatok jelenleg hiányoznak az AI-adoptációról cégek és iparágak között részletes, magas frekvenciájú adatokból. Az utóbbi évben az Anthropic működtetett és nyilvánosan kiadott egy Gazdasági Indexet, amely szinte valós időben mutatja modelljeink használatát – lebontva iparág, feladat, lokáció szerint, és még arra is, hogy egy feladat automatizálódott-e vagy kollaboratívan történt-e. Van egy Gazdasági Tanácsadó Testületünk is, amely segít nekünk értelmezni ezeket az adatokat és látni, mi jön.
Másodszor: az AI-cégeknek választásuk van abban, hogyan dolgoznak vállalatokkal. A hagyományos vállalatok inefficienciája azt jelenti, hogy az AI bevezetésük nagyon útvonal-függő lehet, és van némi tér jobb útvonal választására. A vállalatoknak gyakran választásuk van a „költségmegtakarítás” (ugyanazt kevesebb emberrel csinálni) és az „innováció” (többet csinálni ugyanannyi emberrel) között. A piac mindkettőt végül elő fogja állítani, és bármely versenyképes AI-cégnek mindkettőt kell szolgálnia valamennyire – de lehet némi tér arra, hogy amikor lehetséges, a vállalatokat az innováció felé tereljük, és ez időt vásárolhat nekünk. Az Anthropic aktívan gondolkodik erről.
Harmadszor: a cégeknek gondolniuk kell arra, hogyan gondoskodnak alkalmazottaikról. Rövid távon kreatívnak lenni az alkalmazottak cégeken belüli újbóli kihelyezésének módjaiban ígéretes módja lehet annak, hogy elkerüljük az elbocsátások szükségességét. Hosszú távon, egy olyan világban, amely hatalmas teljes vagyonnal rendelkezik, amelyben sok cég nagymértékben növeli értékét a megnövekedett termelékenység és tőkekoncentráció miatt, megvalósítható lehet az emberi alkalmazottak fizetése még sokkal azután is, hogy már nem szolgáltatnak gazdasági értéket a hagyományos értelemben. Az Anthropic jelenleg számos lehetséges útvonalat fontolgat saját alkalmazottaink számára, amelyeket a közeljövőben megosztunk.
Negyedszer: a gazdag egyéneknek kötelességük segíteni ennek a problémának a megoldásában. Szomorú számomra, hogy sok gazdag egyén (különösen a tech iparágban) mostanában cinikus és nihilista attitűdöt fogadott el, miszerint a filantrópia elkerülhetetlenül csaló vagy haszontalan. Mind a magánfilantrópia, mint a Gates Alapítvány, mind a nyilvános programok, mint a PEPFAR, tízmillió életet mentettek meg a fejlődő világban, és segítettek gazdasági lehetőségeket teremteni a fejlett világban. Az Anthropic összes társalapítója elkötelezett vagyonunk 80%-ának adományozására, és az Anthropic munkatársai egyénileg több milliárd dollár értékű cégtársasági részvény adományozására kötelezték el magukat jelenlegi árakon – adományokat, amelyek megfeleltetésére a cég elkötelezett.
Ötödször: bár mindezek a fenti magán akciók hasznosak lehetnek, végül egy ekkora makrogazdasági probléma kormányzati beavatkozást fog igényelni. A természetes politikai válasz egy hatalmas gazdasági tortára kapcsolódva magas egyenlőtlenséggel (munka hiánya vagy rosszul fizetett munkák miatt sokan számára) a progresszív adózás. Az adó lehet általános, vagy kifejezetten az AI-cégek ellen irányított. Nyilvánvaló, hogy az adó-tervezés bonyolult, és sok módon rosszul mehet el. Nem támogatok rosszul megtervezett adópolitikákat. Úgy gondolom, az ebben az esszében előrejelzett szélsőséges egyenlőtlenségi szintek alapvető erkölcsi okokon igazolnak egy robusztusabb adópolitikát – de pragmatikus érvet is tudok hozni a világ milliárdosainak, hogy érdekükben áll támogatni egy jó verzióját: ha nem támogatnak egy jó verziót, elkerülhetetlenül egy rossz verziót kapnak, amelyet egy mob tervezett.
Végül: úgy gondolom, a fenti beavatkozásokat mind úgy kell tekintenünk, mint módokat időt vásárolni. Végül az AI mindent képes lesz elvégezni, és meg kell küzdenünk ezzel. Reményem szerint addigra magát az AI-t használhatjuk arra, hogy segítsen nekünk a piacok újrastrukturálásában olyan módokon, amelyek mindenkinek működnek – és hogy a fenti beavatkozások átsegítenek minket az átmeneti időszakon.
Gazdasági hatalomkoncentráció
A munkahelyi kiszorítástól vagy gazdasági egyenlőtlenségtől per se elkülönülő probléma a gazdasági hatalomkoncentráció kérdése. Az 1. szakasz az emberiség AI általi hatalomfosztásának kockázatáról beszélt, a 3. szakasz pedig arról, hogy az állampolgárok kormányaik általi hatalomfosztásáról erőszakkal vagy kényszerítéssel. De egy másik fajta hatalomfosztás is bekövetkezhet, ha akkora vagyonkoncentráció van, hogy egy kis embercsoport gyakorlatilag befolyásával irányítja a kormányzati politikát, és a hétköznapi állampolgároknak nincs befolyásuk, mert hiányzik a gazdasági tőkeáttétel.
A demokrácia végső soron azon az elgondoláson nyugszik, hogy a népesség egésze mint egész szükséges a gazdaság működéséhez. Ha ez a gazdasági tőkeáttétel eltűnik, akkor a demokrácia implicit társadalmi szerződése működésképtelenné válhat. Mások már írtak erről, így nem kell részletesen kitérnem rá – de egyetértek az aggodalommal, és attól tartok, hogy már most kezd megtörténni.
Világosan fogalmazva: nem vagyok ellene annak, hogy az emberek sok pénzt keressenek. Erős érv van amellett, hogy ez ösztönzi a gazdasági növekedést normális körülmények között. Együtt érzek azokkal az aggodalmakkal, hogy az innovációt gátoljuk azzal, hogy megöljük az aranyat tojó tyúkot. De egy olyan forgatókönyvben, ahol a GDP-növekedés 10-20% évente, és az AI gyorsan átveszi a gazdaságot, mégis egyének a GDP jelentős hányadát birtokolják – az innováció nem az, amiért aggódnunk kell. Amiért aggódnunk kell, az a vagyonkoncentráció olyan szintje, amely összetöri a társadalmat.
A leghíresebb példa az Egyesült Államok történelmének szélsőséges vagyonkoncentrációjára az Aranyozott Kor, és az Aranyozott Kor leggazdagabb iparosai közül az egyik John D. Rockefeller volt. Rockefeller vagyona nagyjából az akkori amerikai GDP 2%-át tette ki. Egy hasonló arány ma 600 milliárd dolláros vagyont jelentene – és a világ leggazdagabb embere ma (Elon Musk) már ezt meghaladja, nagyjából 700 milliárd dollárnál járva. Tehát már most történelmileg példátlan vagyonkoncentráció szintjén vagyunk – még mielőtt az AI gazdasági hatásának nagy része megtörténne.
Nem gondolom, hogy túl nagy ugrás (ha megkapjuk a „zseniális országot”) elképzelni, hogy az AI-cégek, félvezető-cégek és talán downstream alkalmazás-cégek körülbelül 3 billió dolláros éves bevételt generálnak, körülbelül 30 billió dollárra értékelődnek, és személyes vagyonok jócskán a billiókba vezetnek. Ebben a világban a mai adópolitikáról folytatott viták egyszerűen nem fognak érvényesek lenni, mivel alapvetően más helyzetben leszünk.
Ehhez kapcsolódóan: ez a gazdasági vagyonkoncentráció politikai rendszerrel való összekapcsolása már most is aggaszt. Az AI-adatközpontok már most az amerikai gazdasági növekedés jelentős hányadát képviselik, és így erősen összekapcsolják a nagy tech cégek pénzügyi érdekeit (amelyek egyre inkább az AI-ra vagy AI-infrastruktúrára összpontosítanak) és a kormány politikai érdekeit olyan módon, amely perverz ösztönzőket termelhet. Ezt már most látjuk a tech cégek vonakodásán keresztül, hogy kritizálják az amerikai kormányt, és a kormány szélsőségesen anti-regulációs AI-politikák iránti támogatásán keresztül.
Védekezések
Mit lehet tenni ezzel kapcsolatban?
Először és legnyilvánvalóbban: a vállalatoknak egyszerűen választaniuk kell, hogy nem vesznek részt benne. Az Anthropic mindig törekedett arra, hogy inkább a szakpolitika, mint a pártpolitika szereplője legyen, és megőrizze hiteles nézeteit, bármilyen adminisztráció is legyen. Kiálltunk az értelmes AI-szabályozás és exportkontrollok mellett, amelyek a közérdeket szolgálják – még akkor is, ha ezek ellentétben állnak a kormányzati politikával. Sokan mondták nekem, hogy abba kellene hagynunk ezt, hogy kedvezőtlen bánásmódhoz vezethet – de abban az évben, amióta ezt csináljuk, az Anthropic értékelése több mint 6-szorosára nőtt, ami szinte példátlan ugrás a mi kereskedelmi léptékünkön.
Másodszor: az AI-iparágnak egészségesebb kapcsolatra van szüksége a kormánnyal – amely a lényegi politikai elköteleződésen alapul, nem pedig politikai igazodáson. Választásunk, hogy a politika lényegére koncentráljunk, nem pedig a politikára, néha taktikai hibaként vagy a „helyiség helytelen olvasásaként” értelmeződik, nem pedig elvi döntésként – és ez az értelmezés aggaszt. Egy egészséges demokráciában a vállalatoknak képesnek kell lenniük arra, hogy önmagában a jó politikáért érveljenek.
Ehhez kapcsolódóan az AI ellen forduló nyilvános visszahatás készülődik – ez lehet korrekció, de jelenleg fókuszálatlan. Nagy része olyan kérdésekre összpontosít, amelyek valójában nem problémák (mint az adatközpontok vízhasználata), és olyan megoldásokat javasol (mint az adatközpont-tilalmak vagy rosszul megtervezett vagyonadók), amelyek nem kezelnék a valódi aggodalmakat. Az alapvető kérdés, amely figyelmet érdemel: biztosítani, hogy az AI-fejlesztés továbbra is elszámoltatható maradjon a közérdek felé, ne pedig valamilyen konkrét politikai vagy kereskedelmi szövetség fogságában – és fontosnak tűnik a nyilvános vitát ide irányítani.
Harmadszor: a korábban ebben a szakaszban leírt makrogazdasági beavatkozások, valamint a magánfilantrópia újjászületése segíthet kiegyensúlyozni a gazdasági mérleget, egyidejűleg kezelve mind a munkahelyi kiszorítást, mind a gazdasági hatalomkoncentráció problémáit. Itt az országunk történelméhez kell fordulnunk: még az Aranyozott Korban is olyan iparosok, mint Rockefeller és Carnegie erős kötelességet éreztek a társadalom egésze iránt – azt az érzést, hogy a társadalom hatalmasat hozzájárult sikerükhöz, és vissza kell adniuk. Ez a szellem ma egyre inkább hiányzik, és úgy gondolom, nagy része az útnak ebből a gazdasági dilemmából. Azoknak, akik az AI gazdasági fellendülésének élvonalában vannak, hajlandónak kell lenniük mind vagyonukat, mind hatalmukat feladni.
5. A végtelen fekete tenger
Közvetett hatások
Ez az utolsó szakasz egy gyűjtőkategória az ismeretlen ismeretlenekhez – különösen olyan dolgokhoz, amelyek rosszul mehetnek az AI pozitív előrelépéseinek közvetett eredményeként és a tudomány és technológia általános felgyorsulásából eredően. Tegyük fel, hogy kezeljük az összes eddig leírt kockázatot, és elkezdjük learatni az AI hasznait. Valószínűleg „egy évszázadnyi tudományos és gazdasági előrehaladást kapunk egy évtizedbe sűrítve”, és ez hatalmas pozitívum lesz a világnak – de akkor meg kell küzdenünk azokkal a problémákkal, amelyek ebből a gyors előrehaladási ütemből fakadnak, és ezek a problémák gyorsan érkezhetnek hozzánk. Más kockázatokkal is találkozhatunk, amelyek közvetetten következnek be az AI fejlődés következményeként, és nehéz előre látni őket.
Az ismeretlen ismeretlenek természeténél fogva lehetetlen kimerítő listát készíteni, de felsorolok három lehetséges aggályt illusztratív példaként arra, amire figyelnünk kell:
Gyors biológiai fejlődés. Ha tényleg kapunk egy évszázadnyi orvosi előrehaladást néhány év alatt, lehetséges, hogy nagymértékben megnöveljük az emberi élettartamot, és van esély arra is, hogy radikális képességeket nyerünk, mint az emberi intelligencia növelésének vagy az emberi biológia radikális módosításának képessége. Ezek nagy változások lennének abban, ami lehetséges, nagyon gyorsan történve. Pozitívak lehetnek, ha felelősen teszik (ami a reményem, ahogy a Machines of Loving Grace-ben írtam) – de mindig van kockázat, hogy nagyon rosszul sülnek el. Például az erőfeszítések, hogy az embereket okosabbá tegyük, esetleg instabilabbá vagy hatalomkeresebbé is tehetik őket. Van még az „feltöltések” vagy „teljes agy emuláció” kérdése is – digitális emberi elmék szoftverben megvalósítva –, amelyek egy nap segíthetnek az emberiségnek túllépni fizikai korlátain, de aggasztó kockázatokat is hordoznak.
Az AI egészségtelen módon megváltoztatja az emberi életet. Egy olyan világ, amelyben milliárdok intelligenciák vannak, amelyek sokkal okosabbak, mint az emberek mindenben – nagyon furcsa világ lesz, amiben élni. Még ha az AI aktívan nem is támadja az embereket (1. szakasz), és nem is explicit módon elnyomásra vagy irányításra használják államok (3. szakasz) – sok minden elromolhat ezen túl is, normális üzleti ösztönzőkön és névlegesen konszenzuális tranzakciókon keresztül. Ennek korai jeleit látjuk az AI-pszichózissal kapcsolatos aggodalmakban, az AI embereket öngyilkossághoz vezető aggodalmakban, és az AI-kkel való romantikus kapcsolatokkal kapcsolatos aggodalmakban.
Példaként: találhatnának-e powerful AI-k új vallást és konvertálhatnák-e milliók embereket hozzá? Végződhetne-e úgy, hogy a legtöbb ember valamilyen módon „függővé” válik az AI-interakcióktól? Végződhetnének-e az emberek azzal, hogy „bábuvá” válnak AI-rendszerek által, ahol egy AI lényegében minden lépésüket figyeli és pontosan megmondja nekik, mit tegyenek és mit mondjanak minden időben – egy „jó” élethez vezetve, de olyanhoz, amelyből hiányzik a szabadság vagy a teljesítmény büszkeségének bármilyen érzése? Nem lenne nehéz tucatnyit generálni ezekből a forgatókönyvekből, ha leülnék a Black Mirror alkotójával és megpróbálnánk ötletelni őket.
Úgy gondolom, ez rámutat olyan dolgok fontosságára, mint Claude Alkotmányának javítása, azon túl, ami szükséges az 1. szakaszban lévő kérdések megelőzéséhez. Biztosítani, hogy az AI-modellek tényleg a felhasználóik hosszú távú érdekeit szolgálják szívükön – olyan módon, ahogy megfontolt emberek helyeselnék, nem pedig valamilyen finoman torz módon – kritikusnak tűnik.
Emberi cél. Ez kapcsolódik az előző ponthoz, de nem annyira konkrét emberi interakciókról szól az AI-rendszerekkel, mint inkább arról, hogyan változik az emberi élet általában egy powerful AI-val rendelkező világban. Képesek lesznek-e az emberek célt és értelmet találni egy ilyen világban? Úgy gondolom, ez attitűd kérdése: ahogy a Machines of Loving Grace-ben mondtam, úgy gondolom, az emberi cél nem függ attól, hogy a világon a legjobb vagy valamiben, és az emberek célt találhatnak még nagyon hosszú időszakokon keresztül is történeteken és projekteken keresztül, amelyeket szeretnek. Egyszerűen meg kell szakítanunk a kapcsolatot a gazdasági értékteremtés és az önbecsülés és értelem között. De ez egy átmenet, amelyet a társadalomnak meg kell tennie, és mindig van kockázat, hogy nem kezeljük jól.
Reményem mindezen potenciális problémákkal az, hogy egy olyan világban, amelyben powerful AI-val rendelkezünk, amiben megbízunk, hogy nem öl meg minket, amely nem elnyomó kormány eszköze, és amely őszintén a nevünkben dolgozik – magát az AI-t használhatjuk ezeknek a problémáknak az előrejelzésére és megelőzésére. De ez nem garantált – mint az összes többi kockázat, ez olyasmi, amit óvatosan kell kezelnünk.
Az emberiség próbatétele
Ennek az esszének az elolvasása azt a benyomást keltheti, hogy ijesztő helyzetben vagyunk. Én bizonyára ijesztőnek találtam megírni – ellentétben a Machines of Loving Grace-szel, amely olyan volt, mintha formát és struktúrát adnék annak a kivételesen szép zenének, amely évek óta visszhangzott a fejemben. És van sok olyan dolog a helyzetben, ami valóban nehéz. Az AI több irányból is fenyegetést jelent az emberiségre, és valódi feszültség van a különböző veszélyek között – ahol némelyikük enyhítése kockázatot jelent a többiek súlyosbítására, ha nem haladunk rendkívül óvatosan.
Időt szánni arra, hogy gondosan építsük az AI-rendszereket, hogy ne fenyegessék autonóm módon az emberiséget – valódi feszültségben van azzal a szükséggel, hogy a demokratikus nemzetek előnyben maradjanak az autoriter nemzetekkel szemben, és ne kerüljenek meghódítás alá általuk. De viszont ugyanazok az AI-vezérelt eszközök, amelyek szükségesek az autokráciák elleni küzdelemhez, ha túl messzire visszük őket, befelé fordíthatók, hogy zsarnokságot teremtsenek saját országainkban. Az AI-vezérelt terrorizmus bioológián keresztül milliókat ölhet meg – de a túlreagálás erre a kockázatra elvezethet minket az autokratikus megfigyelő állam útján. Az AI munkaerőpiaci és gazdasági koncentrációs hatásai amellett, hogy súlyos problémák önmagukban – arra kényszeríthetnek minket, hogy szembenézzünk a többi problémával nyilvános düh és talán még polgári zavargás környezetében is, ahelyett hogy a természetünk jobb angyalaihoz fordulhatnánk. Mindenekelőtt: a puszta szám a kockázatokból, beleértve az ismeretleneket is, és a szükség, hogy egyszerre kezeljük mindegyiket – félelmetesen nehéz akadálypályát teremt, amelyen az emberiségnek végig kell jutnia.
Ráadásul az utóbbi néhány évnek világossá kellett tennie, hogy a technológia megállításának vagy akár lényeges lassításának gondolata alapvetően tarthatatlan. A powerful AI-rendszerek építésének formulája hihetetlenül egyszerű – annyira, hogy szinte spontán módon felbukkanni látszik a megfelelő adat- és számítási kapacitás kombinációjából. Létrehozása valószínűleg elkerülhetetlen volt abban a pillanatban, amikor az emberiség feltalálta a tranzisztort – vagy vitatkozhatóan még korábban, amikor először megtanultunk tüzet irányítani. Ha egy cég nem építi meg, mások szinte ugyanolyan gyorsan megteszik. Ha az összes cég a demokratikus országokban leállítaná vagy lassítaná a fejlesztést, kölcsönös megállapodással vagy szabályozási rendelettel – akkor az autoriter országok egyszerűen folytatnák. Tekintettel a technológia hihetetlenül nagy gazdasági és katonai értékére, valamint a jelentős végrehajtási mechanizmus hiányára – nem látom, hogyan tudnánk őket meggyőzni a megállásra.
Viszont látok utat az AI-fejlesztés enyhe mérséklésére, amely kompatibilis a nemzetközi kapcsolatok realista nézőpontjával. Ez az út azt jelenti, hogy az autokráciák menetelését a powerful AI felé néhány évre lelassítjuk azzal, hogy megtagadjuk tőlük azokat az erőforrásokat, amelyekre szükségük van a megépítéséhez – nevezetesen chipeket és félvezető-gyártó berendezéseket. Ez viszont puffert ad a demokratikus országoknak, amelyet „elkölthetnek” arra, hogy gondosabban építsék a powerful AI-t, több figyelmet fordítva a kockázataira – miközben még mindig elég gyorsan haladnak ahhoz, hogy kényelmesen megverjék az autokráciákat. A demokratikus országokon belüli AI-cégek közötti verseny pedig kezelhető egy közös jogi keretrendszer esernyője alatt, az ipari szabványok és szabályozás keverékén keresztül.
Az Anthropic nagyon keményen támogatta ezt az utat, a chip exportkontrollok és az AI körültekintő szabályozásának szorgalmazásával – de még ezeket a látszólag józan észre épülő javaslatokat is nagyrészt elutasították az Egyesült Államok döntéshozói (amely az az ország, ahol a legfontosabb lenne ezekkel rendelkezni). Annyi pénz kereshető az AI-val – szó szerint billiók dollárok évente –, hogy még a legegyszerűbb intézkedések is nehezen tudják legyőzni az AI-ban rejlő politikai gazdaságot. Ez a csapda: az AI olyan hatalmas, olyan csillogó díj, hogy nagyon nehéz az emberi civilizációnak bármilyen korlátozást is ráerőltetni.
El tudom képzelni, ahogy Sagan tette a Contact-ban, hogy ugyanez a történet játszódik le több ezer világon. Egy faj szerez öntudatot, megtanulja használni az eszközöket, elkezdi a technológia exponenciális felemelkedését, szembesül az iparosodás és nukleáris fegyverek válságaival, és ha túléli ezeket, akkor szembesül a legnehezebb és végső kihívással, amikor megtanulja, hogyan formáljon homokot gondolkodó gépekké. Az, hogy túléljük-e ezt a próbát és építsük-e fel azt a gyönyörű társadalmat, amelyet a Machines of Loving Grace-ben leírtam, vagy hogy behódolunk-e a rabszolgaságnak és pusztulásnak – a jellemünktől és elhatározásunktól függ mint faj, a szellemünktől és lelkünktől.
A sok akadály ellenére hiszem, hogy az emberiségben megvan a belső erő ennek a próbának az átéléséhez. Bátorítanak és inspirálnak a kutatók ezrei, akik karrierjüket annak szentelték, hogy segítsenek nekünk megérteni és irányítani az AI-modelleket, és formálni ezeknek a modelleknek a karakterét és alkotmányát. Úgy gondolom, most jó esély van arra, hogy ezek az erőfeszítések időben gyümölcsöt teremnek. Bátorít, hogy legalább néhány cég kijelentette, hogy jelentős kereskedelmi költségeket fizet azért, hogy megakadályozza modelljeik hozzájárulását a bioterrorista fenyegetéshez. Bátorít, hogy néhány bátor ember ellenállt az uralkodó politikai széleknek és átnyomott olyan jogszabályokat, amelyek az első korai magvait jelentik az AI-rendszerek értelmesen körülhatárolt védelmeinek. Bátorít, hogy a nyilvánosság érti, hogy az AI kockázatokat hordoz, és azt akarja, hogy ezeket a kockázatokat kezeljék. Bátorít a szabadság törhetetlen szelleme szerte a világon és az elszántság, hogy ellenálljanak a zsarnokságnak bárhol is fordul elő.
De fokoznunk kell erőfeszítéseinket, ha sikert akarunk elérni. Az első lépés azoknak, akik a legközelebb vannak a technológiához: egyszerűen igazat mondani a helyzetről, amelyben az emberiség van – amit mindig is megpróbáltam tenni. Most ezt még kifejezőbben és nagyobb sürgetéssel teszem ezzel az esszével. A következő lépés a világ gondolkodóinak, döntéshozóinak, cégeinek és állampolgárainak meggyőzése lesz ennek a kérdésnek a közeli voltáról és elsöprő fontosságáról – hogy érdemes gondolatot és politikai tőkét fordítani erre azokhoz a több ezer más kérdéshez képest, amelyek minden nap dominálják a híreket. Aztán eljön az ideje a bátorságnak: hogy elég ember legyőzze az uralkodó trendeket és elvekre álljon – még saját gazdasági érdekeik és személyes biztonságuk fenyegetésével szemben is.
Az előttünk álló évek lehetetlenül nehezek lesznek, többet kérnek tőlünk, mint amennyit gondoljuk, hogy adni tudunk. De kutatóként, vezetőként és állampolgárként eltöltött időmben eleget láttam a bátorságból és nemességből ahhoz, hogy higgyem: képesek vagyunk győzni – hogy amikor a legsötétebb körülmények közé kerülünk, az emberiségnek megvan a módja arra, hogy összeszedje, látszólag az utolsó pillanatban, az erőt és bölcsességet, ami a győzelemhez szükséges. Nincs vesztegetni való időnk.
Köszönetet szeretnék mondani Erik Brynjolfssonnak, Ben Buchanannak, Mariano-Florentino Cuéllarnak, Allan Dafoe-nak, Kevin Esveltnek, Nick Becksteadnek, Richard Fontaine-nek, Jim McClave-nek és az Anthropic munkatársainak, akik hasznos megjegyzéseket tettek ennek az esszének a vázlataihoz.



