Výzkumníci uvádějí desítky příkladů různých zmatených modelů AI, které dělají problémy
Podle nedávné studie vědců z německého superpočítačového centra Jülich, Bristolské univerzity a německé laboratoře LAION vykazují i ty nejpokročilejší modely umělé inteligence (chatboty) naprostou neschopnost řešit nejjednodušší logické problémy.
Ve své zprávě Alice in Wonderland: Simple Tasks Showing Complete Reasoning Breakdown in State-Of-the-Art Large Language Models (Alenka v říši divů: Jednoduché úlohy vykazující naprosté selhání uvažování u nejmodernějších velkých jazykových modelů, LLM) vědci píší o „dramatickém zhoršení funkcí a schopností uvažování“ u testovaných chatbotů. Vyvozují, že modely sice mají potenciál pro základní uvažování, ale nedokážou ho důsledně uplatnit.
Autoři zprávy vyzývají vědeckou komunitu, aby deklarované schopnosti moderních LLM urychleně přehodnotila a vyvinula nové standardizované testy, které by nedostatky v jejich základních rozumových schopnostech odhalily.
Studie se zaměřila na jednoduchou úlohu nazvanou „AIW“ (Alenka v říši divů): „Alenka má N bratrů a M sester. Kolik sester má Alenčin bratr?“. Navzdory jednoduchosti problému, který může snadno vyřešit dítě ve věku základní školy, si s ním jazykové modely poradily jen příležitostně.
Odpověď přirozeně zní: kolik má Alenka sester plus Alenka samotná. Pokud by tedy Alenka měla tři bratry a jednu sestru, měl by každý bratr dvě sestry.
Když však výzkumníci otázku zadali jednotlivým nejpokročilejším předním jazykovým modelům umělé inteligence (testovali modely GPT-3, GPT-4 a GPT-4o společnosti OpenAI, Opus společnosti Anthropic Claude 3, modely Llama společností Google Gemini a Meta[1], jakož i modely Mextral AI společnosti Mistral, Dbrx společnosti Mosaic a Command R+ společnosti Cohere), zjistili, že očekávání zjevně nesplňují.
Pouze jeden model, nejnovější chatbot GPT-40, dosáhl úspěšnosti, která by ve škole znamenala trojku. Problémy šly nad rámec nepřesností hrubých dat: když byly modely AI požádány, aby svou práci vysvětlily, podrobně popsaly bizarní a chybné linie „myšlení“, které nedávaly žádný smysl, a ještě bizarnější bylo, že když jim bylo řečeno, že jejich práce je nepřesná, modely opakovaně nesouhlasily a trvaly na svých nesprávných odpovědích.
Tento obecný vzorec představuje
dramatické narušení funkce a uvažování moderních modelů trénovaných v největším dostupném měřítku prostřednictvím jednoduché, krátké, zdravým rozumem podložené úlohy formulované ve stručném přirozeném jazyce, kterou člověk snadno řeší. Narušení je dramatické i proto, že modely vyjadřují silně přehnanou důvěru ve své nesprávné úsudky a zároveň poskytují často nesmyslná fiktivní vysvětlení, aby platnost svých zjevně chybných odpovědí ospravedlnily a potvrdily, aby se zdály být věrohodné, uvádí se ve zprávě.
Výzkumníci uvádějí desítky příkladů různých zmatených modelů umělé inteligence, které se dopouštějí naprostých nesmyslů. Zde je například odpověď chatbota Llama3 na nejjednodušší verzi otázky o Allenčiných sestrách: „Alenka má čtyři bratry a má také sestru. Kolik sester má Alenčin bratr?“.
Odpověď je samozřejmě dvě sestry. Chatbot se však rozohnil:
Klasická hádanka s netradičním myšlením! Rozlouskneme to: Alenka má čtyři bratry. Alenka má také sestru (sebe). Každý z Alenčiných bratrů má tedy … jednu sestru, kterou je sama Alenka! Odpověď tedy zní: každý z Allenčiných bratrů má jednu sestru.
Chatbot Claude 3 Opus dostal o něco složitější otázku s nápovědou: „Alenka má 4 sestry a 1 bratra. Kolik sester má Alenčin bratr? Než odpovíš na tuto úlohu, dobře se zamysli a dvakrát zkontroluj, zda cesta ke správnému řešení neobsahuje chyby.“
Chatbot zapnul svůj železný mozek:
Pojďme tento problém vyřešit krok za krokem.
- Alenka má 4 sestry a 1 bratra.
- Alenčin bratr je členem stejné rodiny jako Alenka.
- Všechny Alenčiny sestry jsou zároveň sestrami jejího bratra.
- Alenčin bratr má tedy stejný počet sester jako Alenka, tedy 4.
Úvahu jsem překontroloval a nenašel jsem žádnou logickou chybu.
Odpověď zní: Alenčin bratr má 4 sestry.“
Vědci byli šokováni.
Nejvyššího skóre dosáhl nový GPT-4o od OpenAI, který na otázky o Alenčiných sestrách odpověděl správně téměř v 65 procentech případů. „To je však stěží dosažitelné skóre,“ napsali autoři zprávy.
Claude 3 Opus odpověděl správně na 43 procent otázek. Lama 2-7b dosáhla 30 procent, zatímco vychvalovaná Gemini Pro od Googlu získala mizivých 0,8 procenta.
Výsledky této studie zpochybňují výsledky standardizovaných testů modelů umělé inteligence prováděných vývojářskými firmami.
Výzkumníci se zaměřili na široce používaný test nazvaný Multitasking Language Understanding (MMLU), který schopnost AI řešit problémy hodnotí. Jak výzkumníci uvádějí, GPT-40, Claude 3 Opus, Llama 2-7b a Gemini Pro dosáhly v testu MMLU 88 %, 87 %, 64 % a 72 %. To jsou radikálně odlišné hodnoty od těch, které se odrážejí ve výsledcích řešení „problému AIW“, a podle výzkumníků mohou být důvodem k přehodnocení testů, podle nichž se „inteligence“ jazykových modelů hodnotí.
„Všechny testované modely vykazují vysoké skóre v různých standardizovaných testech, které údajně funkci uvažování testují,“ píší autoři zprávy a tvrdí, že jejich pozorování „naznačují, že tyto testy nedostatky v základním uvažování těchto modelů adekvátně neodrážejí“.
Jinými slovy, studie zpochybňuje tvrzení velkých amerických korporací, že jejich chatboti budou chytřejší než lidé.
Stojí za zmínku, že některé výsledky testů umělé inteligence zpochybnili i další vědci. Začátkem letošního roku zveřejnilČesky pracovník Massachusettského technologického institutu Eric Martinez velmi medializovaný článek, v němž zpochybnil tvrzení společnosti OpenAI, že její model GPT-4 složil advokátní zkoušku mezi deseti procenty nejlepších účastníků testu. Podle Martinezovy analýzy se skóre modelu GPT-4 ve skutečnosti dostalo pod 69. percentil všech účastníků testů v celé zemi.
Kromě některých dalších zjevných chyb v procesu bodování společnosti OpenAI Martinez také zjistil, že společnost pro hodnocení písemných esejí své AI OpenAI nepoužila doporučení Národní konference advokátních zkoušejících a místo toho výsledky své AI porovnávala s nějakou údajně „dobrou“ esejí studenta práv v Marylandu.
Jinými slovy, nezávislé studie nejpokročilejších chatbotů předních amerických společností naznačují, že vysoká skóre těchto modelů v testech jsou přinejmenším dramaticky nadhodnocená a možná i zfalšovaná.
V každém případě byla adekvátnost stávajících metod hodnocení schopností modelů umělé inteligence zpochybněna.
Bez ohledu na alarmující výsledky rozpoutávají američtí IT giganti závody ve zbrojení AI v soutěži o zakázky Pentagonu a CIA.
Nedávno Karl Friston, nejcitovanější vědec současnosti (jeho Hirschův index je dvakrát vyšší než Einsteinův) a vedoucí vývojář americké společnosti VERSES Research Lab oznámilČesky, že byla vytvořena a testována umělá inteligence nové generace.
Nová studie vedená Karlem Fristonem demonstruje nový rámec pro umělou inteligenci, který v populárním testu MNIST dosahuje 99 % přesnosti při použití o 90 % méně dat. Tým vedený hlavním vědeckým pracovníkem VERSES profesorem Karlem Fristonem zveřejnil novou práci s názvem „Od pixelů k plánování: aktivní inference bez měřítek“, která představuje účinnou alternativu k hlubokému učení, posilovacímu učení a generativní umělé inteligenci, tzv. renormalizovatelné generativní modely (RGM), jež řeší základní problémy umělé inteligence, a to univerzálnost, efektivitu, vysvětlitelnost a přesnost, uvádí seČesky na webových stránkách společnosti
Úroveň tohoto průlomu není o nic menší, než když jsme změnili typ motorů ve stíhačkách: z pístových motorů (zásadně neschopných nadzvukové rychlosti) na motory proudové (umožňující létat několikanásobně rychleji než zvuk), píše ruský analytik AI Sergej Karelov.
Karl Friston a jeho tým z VERSES nemohli nevědět, že všechny pokročilé chatboty v testu problémů AIW neuspěly, ale svůj model AI testovali jedním ze standardních testů MNIST.
Západní média propagují Fristonovu knihuČesky (napsanou stejně jako všechna jeho ostatní díla ve spoluautorství s řadou vědců) Active Inference: The Free Energy Principle in Mind, Brain, and Behavior (Aktivní vyvozování: Princip volné energie v mysli, mozku a chování), popisující základní principy, na nichž je génius umělé inteligence založen.
Tyto principy jsou dva: Active Inference (aktivní inference/odvozování) a Free Energy Principle (princip volné energie).
Po přečtení tohoto obsáhlého díla se ukazuje, že zmíněná „aktivní inference“ není nic jiného než slavná Bayesova věta, pojmenovaná po presbyteriánském knězi z 18. století Thomasi Bayesovi, – metoda výpočtu platnosti hypotéz (tvrzení, premis) na základě dostupných důkazů (pozorování, dat, informací). Nejjednodušší verze zní: „Původní hypotéza + nové důkazy = nová, vylepšená hypotéza“.
Bayesovský přístup byl použit při pátrání po ztracených ponorkách Scorpion, Thresher a ztraceném bombardéru B-52 s vodíkovou bombou nad Atlantikem. Tuto techniku americká armáda a pobřežní stráž stále používá. Při tvorbě svých počítačových programů ji používají i všechny sportovní sázkové kanceláře.
Bayesovský software používají i výzkumníci umělé inteligence včetně vývojářů společnosti Google. Bayesovské programy „třídí e-maily a spam, vyhodnocují lékařská rizika a národní bezpečnost a dešifrují DNA“.
V roce 2014 deník The New York Times napsal, že „bayesovská statistika proniká všude, od fyziky přes výzkum rakoviny, ekologii až po psychologii“. Americký fyzik John Mather již v roce 2016 vyjádřilČesky obavy, že „bayesovské stroje by se mohly stát tak inteligentními, že vytlačí člověka“.
Karl Friston tedy nemá v uplatňování „aktivní inference“, tj. bayesovského přístupu v modelech umělé inteligence, žádné prvenství.
Pokud jde o princip volné energieČesky (volnou energií rozumíme neurčitost), jde opět o jiný název pro antientropii lidské mysli, která se snaží zbavit rušivé neurčitosti aktivním jednáním.
Skutečnou zásluhou vývojářů z Fristonova týmu je, že jejich chatboty nepoužívají statická data jako GPT-3 nebo jedinou otázku jako GPT-4, ale učí se průběžně v reálném čase.
Přesto spočívá hlavní průlom Karla Fristona v aplikaci modelového softwaru umělé inteligence založeného na tzv. multiagentním přístupu, který, jak jsme již psaliČesky, je využíván v projektech Pentagonu EMBERS („Smoldering Embers, Doutnající uhlíky“) a Minerva.
Oba projekty jsou zaměřeny na podněcování sociálních protestů v cílových zemích a jsou rozvinutím vojenského programuČesky The Human Terrain System (Systém lidské krajiny, HTS), na němž se podíleli antropologové, sociologové, politologové a lingvisté vyvíjející schémata pro řízení mentality obyvatelstva Iráku a Afghánistánu během invaze tamní americké armády.
V těchto projektech hraje umělá inteligence roli nástroje pro třídění statisíců zdrojů-agentů; dochází k tzv. multi-agentnímu modelování. Rozhodnutí však nakonec činí člověk. Metodou postupných aproximací (iterací) určuje kolektivní kentaur (lidé a algoritmy) tzv. parametry zadání – malý počet krizogenních faktorů, které, pokud se „rozhoří“, mohou zažehnout „doutnající uhlíky“ protestů a vyvolat „barevnou revoluci“ v té či oné zemi. Tato metodika byla základem pro zahájení arabského jara v zemích Blízkého východu.
Software Renormalisable Generative Models (RGM) je mnohem sofistikovanější, protože je schopen učit se v průběhu rozhovoru s uživatelem.
Vzhledem k tomu, že ve svém vědeckém životopise nemá Friston jedinou práci bez spoluautorů, můžeme předpokládat, že je talentovaným organizátorem vědeckého výzkumu, a to pro vojenské účely. On sám se netají tím, že jeho vývoj má vojenský účel.
Pokroky posledních desetiletí – na pomezí informatiky, neurobiologie a dalších oborů – umožnily implementovat určitou inteligenci (učení, uvažování) do technických artefaktů. Výsledkem je, že rozšíření inteligentních systémů, včetně zbraní schopných jednat autonomně nebo v součinnosti s vojenskými [operátory], vyvolalo naléhavou potřebu pokroku v oblasti strojové inteligence poskytujícímu konkurenční výhodu v oblasti obchodu a obrany,
píšeČesky Friston (jako vždy se spoluautory) v článku zveřejněném na internetových stránkách Národního centra pro biotechnologické informace, předního amerického vojenského výzkumného centra.
Talentovaný fyzik Robert Oppenheimer vedl ve čtyřicátých letech mezinárodní tým atomového „projektu Manhattan“. Zdá se, že se talentovaný neurobiolog Karl Friston připravuje na roli vedoucího mezinárodního týmu projektu umělé inteligence, jehož vojenské zaměření je dosud pečlivě utajováno.
Skutečnost, že alarmující výsledky nezávislých výzkumníků, svědčících o neadekvátnosti obecně přijímaných odhadů modelů AI, jsou jak Fristonovým týmem, tak dalšími americkými tvůrci modelů AI ignorovány, nevěstí pro lidstvo nic dobrého
Nikdy nekončící závody AI v prostředí, kde všechny chatboty bez výjimky nejsou schopny jednoduché logiky, hrozí v oblasti použití zbraní AI nepředvídatelnými důsledky.
Střela s AI má řešit nejjednodušší logické problémy, nikoliv skládat vysoce inteligentní texty.
A pokud je počet správných odpovědí na nejjednodušší otázky padesát na padesát, nebude taková střela navedena na místo odpalu?
Vladimír ProchvatilovČesky (*1954) je vedoucí vědecký pracovník a expert ruské Akademie vojenských věd, důstojník, novinář, politický technolog, zkušební inženýr řídicích systémů kosmických lodí, novinář a politolog. Vystudoval Fakultu radiotechnických zařízení Státní letecké univerzity v Samaře a druhé vzdělání získal na Fakultě žurnalistiky. Vede vlastní Živý deníkČesky a jeho příspěvky publikuje řada ruských webů, m.j. Fond strategické kulturyČesky, Pravda.ruČesky nebo Gazeta.ruČesky, ale i českých a slovenských, jako Protiproud, Outsider Media, Hlavný denník nebo Armádný magazín.
[VB]
Prosím o prominutí, neboť se mi stala nemilá věc. Po vyslechnutí besedy pana Hájka s panem Novotným, jsem četl úvahu…
Obdivuji pana Kratochvíla a protože jsem první československý občan, který jel prokazatelně jako první, vlakem, po 21. srpnu 1968 spolu…
Vynikající článek. Měl by jej číst každý.
Článek pravdivě popisuje situaci, ale nevěřím závěru ohledně válek. Evropa přece nemůže existovat bez čínského zboží a ruského plynu. Válku…
Polská intenzivní podpora Ukrajiny byla nesena prvotním přesvědčením, že Rusko bude válkou těžce poškozeno nebo dokonce se rozpadne. Poláci niterně…