
Када уђете у ординацију, претпостављате нешто тако основно да јој једва треба артикулација: ваш лекар је раније додиривао тело. Проучавали су анатомију, видели органе и научили разлику између бола који зрачи и бола који пулсира. Они су развили ово знање, претпостављате, не само кроз читање, већ и кроз године практичног искуства и обуке.
Сада замислите да откријете да овај доктор уопште није срео тело. Уместо тога, они су само прочитали милионе извештаја пацијената и научили, са изузетним детаљима, како дијагноза обично „звучи“. Њихова објашњења би и даље деловала убедљиво, чак и утешно. Каденца би била тачна, речник беспрекоран, формулације умирујуће познате. Па ипак, оног тренутка када сте сазнали од чега је заправо сачињено њихово знање – обрасци у тексту, а не у контакту са светом – нешто битно би се растворило.
Сваког дана многи од нас се обраћају алатима као што је ОпенАИ ЦхатГПТ за медицинске савете, правне смернице, психолошки увид, образовне подуке или просудбе о томе шта је истина, а шта није. И на неком нивоу, знамо да ови велики језички модели (ЛЛМ) имитирају разумевање света које заправо немају — чак и ако њихова течност може да олакша заборав.
О подршци научном новинарству
Ако уживате у овом чланку, размислите о томе да подржите наше награђивано новинарство претплата. Куповином претплате помажете да се обезбеди будућност упечатљивих прича о открићима и идејама које данас обликују наш свет.
Али да ли је расуђивање ЛЛМ-а нешто попут људског расуђивања или само генерише језичку силуету расуђивања? Као научник који проучава људско расуђивање и динамику информација, недавно сам кренуо са својим колегама да се позабавим овим изненађујуће недовољно истраженим питањем. Упоредили смо како су ЛЛМ и људи реаговали када су замољени да донесу одлуке о неколико тестова који су деценијама проучавани у психологији и неуронауци. Нисмо очекивали да ће ови системи „размишљати“ као људи, али смо веровали да би било вредно разумети како се они заправо разликују од људи како бисмо помогли људима да процене како и када да користе ове алате.
У једном експерименту, представили смо 50 људи и шест ЛЛМ-а са неколико извора вести, а затим их замолили да оцене кредибилитет извора и оправдају своју оцену. Претходна истраживања показују да када особа наиђе на споран наслов, обично се дешава неколико ствари. Прво, особа проверава наслов у односу на оно што већ зна о свету: да ли се уклапа са основним чињеницама, прошлим догађајима или личним искуством. Друго, читалац доноси очекивања о самом извору, на пример да ли долази из медија са историјом пажљивог извештавања или познатог по преувеличавању или пристрасности. Треће, особа разматра да ли тврдња има смисла као део ширег ланца догађаја, да ли је то реално могло да се деси и да ли је у складу са начином на који се сличне ситуације обично одвијају.
Велики језички модели не могу учинити исту ствар. Да бисмо видели шта раде уместо тога, замолили смо водеће моделе да процене поузданост наслова вести према одређеној процедури. ЛЛМ су добили инструкције да наведу критеријуме које користе за процену кредибилитета и да оправдају своју коначну пресуду. Приметили смо да чак и када су модели дошли до сличних закључака као и оних људских учесника, њихова оправдања доследно одражавају обрасце извучене из језика (као што је колико често се одређена комбинација речи поклапа и у ком контексту), а не референце на спољашње чињенице, претходне догађаје или искуство, који су били фактори на које су се људи ослањали.
У другим експериментима, упоређивали смо размишљање људи и доктора наука о моралним дилемама. Људи се ослањају на норме, друштвена очекивања, емоционалне одговоре и културно обликоване интуиције о штети и праведности да размишљају о моралу. Као један пример, када људи процењују морал, често користе узрочно-последично резоновање. Они разматрају како један догађај доводи до другог, зашто је тајминг важан и како би се ствари могле другачије испоставити да се нешто променило на том путу. Људи замишљају различите ситуације кроз контрачињенице у којима се питају: „Шта да је ово било другачије?“
Открили смо да је језички модел прилично добро репродуковао овај облик промишљања: модел пружа изјаве које одражавају речник бриге, дужности или права. Представиће каузални језик заснован на обрасцима у језику, укључујући „ако-онда“ противчињенице. Али што је важно, модел заправо не замишља ништа или се не бави било каквим разматрањем, већ само репродукује обрасце у томе како људи говоре или пишу о овим противчињеницама. Резултат може звучати као узрочно резоновање, али процес иза њега је довршавање обрасца, а не разумевање како догађаји заправо производе исходе у свету.
У свим задацима које смо проучавали, појављује се доследан образац. Велики језички модели често могу одговарати људским одговорима, али из разлога који немају никакве сличности са људским расуђивањем. Тамо где човек суди, модел корелира. Тамо где човек оцењује, модел предвиђа. Када се човек бави светом, модел се бави дистрибуцијом речи. Њихова архитектура их чини изузетно добрим у репродукцији образаца који се налазе у тексту. То им не даје приступ свету на који се те речи односе.
Па ипак, пошто се људски судови такође изражавају језиком, одговори модела често на површини личе на људске одговоре. Овај јаз између онога што се чини да модели раде и онога што раде заправо раде то зовемо моје колеге и ја епистемија: када симулација знања постаје неразлучива, за посматрача, од самог знања. Епистемија је назив за ману у томе како људи тумаче ове моделе, у којима се језичка веродостојност узима као сурогат истине. То се дешава зато што модел течно говори, а течност је нешто чему су људски читаоци спремни да верују.
Опасност је овде суптилна. Не ради се првенствено о томе да су модели често погрешни – то могу бити и људи. Дубље питање је у томе што модел не може знати када халуцинира, јер уопште не може представљати истину. Не може да формира уверења, да их ревидира или провери своје резултате у односу на свет. Не може разликовати поуздану тврдњу од непоуздане осим по аналогији са претходним језичким обрасцима. Укратко, не може да уради оно чему је пресуда у основи.
Људи већ користе ове системе у контекстима у којима је неопходно правити разлику између веродостојности и истине, као што су право, медицина и психологија. Модел може да генерише параграф који звучи као дијагноза, правна анализа или морални аргумент. Али звук није супстанција. Симулација није симулирана ствар.
Ништа од овога не подразумева да велике језичке моделе треба одбацити. Они су изузетно моћни алати када се користе за оно што јесу: мотори лингвистичке аутоматизације, а не мотори разумевања. Одлични су у састављању, сумирању, рекомбиновању и истраживању идеја. Али када их замолимо да просуде, тихо редефинишемо шта пресуда постаје – пребацујући је са односа између ума и света на однос између брзе и дистрибуције вероватноће.
Шта читалац треба да уради са овим сазнањем? Немојте се плашити ових система, већ тражите јасније разумевање шта ови системи могу, а шта не могу. Запамтите да глаткоћа није увид, а елоквенција није доказ разумевања. Третирајте велике језичке моделе као софистициране лингвистичке инструменте који захтевају људски надзор управо зато што им недостаје приступ домену од којег просуђивање на крају зависи: самом свету.
Да ли сте научник специјализован за неуронауку, когнитивну науку или психологију? И да ли сте прочитали недавно рецензирани рад о коме бисте желели да пишете за Минд Маттерс? Молимо пошаљите предлоге на Сциентифиц АмерицанУредница Минд Маттерс Даиси Иухас на диухас@сциам.цом.


