ЦхатГПТ и Близанци АИС имају јединствено различите стилове писања

Последњи пут када сте комуницирали са ЦхатГПТ-ом, да ли је осећало да сте разговарали са једном особом или више као што сте разговарали са више особа? Да ли је Цхатбот изгледао доследну личност или је изгледало да је сваки пут када сте се бавили њиме?
Пре неколико недеља, док упоређујући познавање језика у есејима написаним ЦхатГгптом с тим у есејима од стране људских аутора, имао сам АХА! тренутак. Схватио сам да упоређујем јединствени глас – да је велики језик модела или ЛЛМ, да овлашћења разноврсног разноликог распона гласова из више писаца. Лингвисти попут мене знају да свака особа има посебан начин изражавања себе, у зависности од матерњег језика, старости, пола, образовања и других фактора. Зовемо тај индивидуални стил говора „идиолоплект“. Слично је у концепту, али много уже него, дијалект, што је разноликост језика који је уговорио заједница. Мој увид: Може се анализирати језик који је произвео ЦхатГгптом да бисте сазнали да ли се изражава у идиолекту-јединствен, посебан начин.
Идиолокти су од суштинског значаја у форензичкој лингвистици. Ово поље испитује употребу језика у полицијским интервјуима са осумњиченима, атрибутима ауторства докумената и текстуалних порука, прати језичке позадине азиланата и открива плагијаризам између осталог. Док не требамо (још увек) да ставимо ЛЛМС на постоље, растућу групу људи, укључујући наставнике, забринути због таквих модела које студенти користе на штету њиховог образовања – на пример, оутсоурцинг писањем задатака на оутсоурцинг писању задатака. Тако да сам одлучио да проверим да ли ЦхатГгпт и њени вештачки обавештајни рођаци, као што су Близанци и Цопилот, заиста поседују идиолове.
О подржавању научног новинарства
Ако уживате у овом чланку, размислите о подршци нашем награђиваном новинарству Претплата. Куповином претплате помажете да се осигура будућност утицајних прича о открићима и идејама које данас у облику света у облику света.
Елементи стила
Да би тестирао да ли је текст генерисао ЛЛМ, морамо да испитамо не само садржај, већ и образац који се користи. Истраживање показује да ЦхатГгпт има тенденцију да фаворизује стандардне граматике и академске изразе, избегавајуће сленг или колоквијализми. У поређењу са текстовима који су написали људски аутори, ЦхатГТПТ има тенденцију да преузме софистициране глаголе, као што су „Делве“, „Поравнавање“ и „подвлачи“ и придјеви, попут „приметни“ и „,“. Могли бисмо размотрити ове речи типичне за идилолекцију Цхатгпт. Али да ли ЦхатГТПТ изражава идеје другачије од осталих алата који се налазе на истом теми? Хајде да унесемо у то.
Интернет спремишта су пуне невероватних скупова података које се могу користити за истраживање. Један је скуп података који је састављен са рачунарским научником Мухаммадом Навеед, који садржи стотине кратких текстова на дијабетесу написаним ЦхатГГПТ и Близанцима. Текстови су практично исте величине и, према опису свог Створитеља, могу се користити „да се упореде и анализирају перформансе оба АИ модела у генерисању информативног и кохерентног садржаја на медицинској теми.“ Сличности у теми и величини чине их идеалним за утврђивање да ли изгледа да су излази потичу са два различита „аутора“ или из једног „појединца“.
Један популарни начин припису ауторства користи методу Делта, уведена 2001. године Јохн Бурровс, пионир рачунарске стилистике. Формула упоређује фреквенције речи које се обично користе у текстовима: речи које функционишу на изражавање односа са другим речима-а категоријама која укључује „и“ „“ „“ „“ „“ „“ „“ „“ „“ „“ „“ „-“ „“ – „“ „,“ „“, „“ „,“ „“ „. На овај начин, Делта метода снима функције које се разликују у зависности од идиоолеката њихових аутора. Конкретно, излази бројеве који мере језичке „удаљености“ између текста истражује и референтне текстове од стране ускраћених аутора. Што је мања удаљеност, која је обично нешто испод или изнад 1, то је већа вероватноћа да је аутор исти.
Открио сам да случајни узорак од 10 процената текстова на дијабетесу генерисаним од стране ЦхатГГПТ-а има удаљеност од 0,92 на целокупни ЦхатГпт Диабетес ДатаСет и удаљеност од 1,49 на целокупни Близанци. Слично томе, насумични узорак 10 одсто Близанци текстове има 0,84 ГЕМИНИ и 1,45 за ЦхатГтпт. У оба случаја, ауторство се показује да је сасвим јасно, што указује да модели два алата имају различите стилове писања.
Кажете шећер, кажем глукозу
Да бисмо боље разумели ове стилове, замислимо да гледамо текстове дијабетеса и одабиром речи у групама од три. Такве комбинације се називају „триграмима“. Виђењем који се трограми најчешће користе, можемо добити осећај нечијег јединственог начина да заједно постављамо речи. Издвојио сам 20 најчешћих триграма и за ЦхатГтпт и Близанци и упоредили их.
ЦхатГПТ-ов триграм у овим текстовима сугеришу формалније, клиничније и академски идиолок, са фразама попут дијабетеса, „“ нивои глукозе „“ „Глукозни ниво“, „“ Развој „, које карактерише повишен“ и „повећани ризик“. Супротно томе, Близини триграми су разговорнији и објашњени, са фразама као што су „пут“, „каскада“, „није“ „“ шећер у крви „и“ контрола шећера у крви „. Одабир речи попут „шећера“ уместо „глукозе“ указује на поставку за једноставан, приступачан језик.
Графикон у наставку садржи најупечатљивије разлике повезане са фреквенцијама између триграма. Близанци користи формалну фразу „ниво глукозе у крви“ само једном у целом датуму – тако да зна фразу, али чини се да га избјегава. Супротно томе, „високи шећер у крви“ појављује се само 25 пута у одговорима ЦхатГПТ-а у поређењу са 158 пута у Близанцима. У ствари, ЦхатГГПТ користи реч „глукоза“ више него двоструко више пута колико користи „шећер“, док Близанци ради управо супротно, пише „шећер“ више него двоструко више него двоструко више од „глукозе“.

Еве Лу; Извор: Каролина Рудничка (подаци)
Зашто би ЛЛМС развили идиолекти? Феномен би могао бити повезан са принципом најмање напора – тенденције да одабере најмање захтеван начин да оствари дато задатак. Једном када реч или фраза постане део њиховог језичког репертоара, модели могу да га наставе и комбинују са сличним изразима, попут људи имају омиљене речи или изразе које користе са горњим просеком у свом говору или писању. Или би то могло бити облик прања – нешто што се догађа људима када чујемо реч, а затим је вероватније да га сами користимо. Можда је сваки модел на неки начин да се темељи са речима које више пута користи. Идиолокти у ЛЛМС-у могу такође да одражавају оно што су познате као ниже способности – вештине које модели нису изричито обучени за обављање и да их ипак покажу.
Чињеница да Алати на бази ЛЛМ-а производе различите идиолове – који би се могли променити и развити на ажурирањима или новим верзијама за текућу расправу о томе колико је АИ да постигнете интелигенцију на људском нивоу. То чини разлику ако модели Цхатботс-а не просјечне или огледају своје податке о обуци, али развијају карактеристичне лексичке, граматичке или синтактичке навике у процесу, попут људи обликовале су наша искуства. У међувремену, знајући да би ЛЛМС написао у идиоловима да би могао да утврди да ли је есеј или чланак произвео модел или одређеним појединцима – баш као што можете препознати поруку пријатеља у групном цхату по свом стилу потписа.