

Како агентички АИ токови рада умножавају трошкове и кашњење дугих ланаца резоновања, тим са Универзитета Мериленд, Лавренце Ливерморе Натионал Лабс, Колумбија универзитета и ТогетхерАИ је пронашао начин да испече 3к повећање пропусности директно у тежине модела.
За разлику од спекулативног декодирања, које захтева посебан модел израде, овај приступ не захтева додатну инфраструктуру – само један посебан токен који се додаје постојећој архитектури модела.
Границе предвиђања следећег токена
Предвиђање следећег токена — генерисање текста једног токена по пролазу унапред — ствара плафон пропусности који постаје болно скуп када модели треба да произведу хиљаде токена. Ово уско грло је посебно проблематично у моделима резоновања, који често генеришу хиљаде „ланац мисли” токени пре него што произведу коначни одговор, што доводи до спорог и скупог корисничког искуства.
Предвиђање више токена (МТП) нуди алтернативну парадигму обуке која омогућава моделу језика да производи више токена истовремено у једном пролазу унапред. На пример, модел се може обучити да предвиди блок токена одједном уместо само следећег токена.
Џон Кирхенбауер, докторант рачунарских наука на Универзитету Мериленд и коаутор рада, рекао је за ВентуреБеат да се, како се крећемо ка агентским радним токовима, фокус помера са укупне пропусности на брзину једног корисника. "Данас, када су ултра-дуги трагови размишљања норма и агентске спољне петље које још више умножавају те трошкове, кашњење постаје једнако важна димензија укупне ефикасности послуживања као и бруто токени у секунди по хардверској јединици (тпс/ГПУ)," рекао је Кирцхенбауер. Он је рекао да иако је стандардно групно предвиђање следећег токена већ оптимално за укупну пропусност, нови приступ "настојати[s] да засити ГПУ само једним корисничким упитом да смањи кашњење за тог појединачног корисника."
Постоје и друге методе, али оне имају недостатке. "Вреди напоменути да су спекулативно декодирање и дифузиони ЛЛМ као алтернатива фокусирана на ефикасност предвиђању следећег токена (НТП), обе технике убрзања фокусиране на кашњење," рекао је Кирцхенбауер. Али спекулативно декодирање захтева постављање и управљање помоћним елементом "израда нацрта" модел, који троши више апсолутних рачунања за израду и верификацију. МТП, с друге стране, "користи сличну врсту компромиса, само је једноставнији за послуживање и сам по себи је научно занимљив."
Међутим, тренутне МТП парадигме имају ограничења. Стандардни циљ за обуку језичког модела за МТП укључује упоређивање његових предвиђања са основним истинитим текстом из скупа података. Замка је у томе што ова стандардна обука учи модел да предвиди вероватноћу токена на одређеној позицији независно, уместо да брине о заједничком односу између низа токена.
Ако модел покуша да предвиди више токена одједном користећи овај стандардни метод, јављају се два велика проблема. Прва је граматичка неусклађеност. На пример, ако модел предвиђа две речи после префикса "Чувар зоолошког врта је хранио," може независно узорковати и произвести неусклађену фразу као што је "месо панде" или "лав бамбус" уместо да "панда бамбус" и „лавље месо“.
Друго питање је дегенерисано понављање. Пошто је типичан текст непредвидив, модел који покушава да предвиди токен 100 позиција у будућности у односу на стандардни скуп података ће само предвидети "је," пошто је то најчешћа реч у енглеском језику. Ово доводи до тога да модел даје глупости попут "… тхе тхе …" за позиције далеке будућности.
Мулти-токен предвиђање путем самодестилације
Да би решили проблеме генерисања више токена, истраживачи предлажу нову технику обуке која користи шему ученик-наставник. Студентски модел, који је модел који учи да предвиди више токена, генерише детерминистички блок са више токена. Модел наставника, који делује као јак стандардни модел језика за предвиђање следећег токена, оцењује тај блок. Наставник делује као критичар, рачунајући колико је вероватан и кохерентан учеников предложени низ. Ако ученик предложи неусклађену фразу као "лав бамбус," наставник му додељује висок губитак, учећи ученика да избегава ту конструкцију.
Парадигма је инспирисана учењем на основу политике јер студентски модел није само меморисање статичног текста. Генерише комплетно увођење (секвенца радњи у РЛ језику) тренутно паралелно са једним пролазом унапред и прима награду на основу тога колико наставник мисли да је добар. За разлику од статичких надгледаних метода где су парови за обуку унапред фиксирани, повратне информације су овде динамичке, генерисане из сопствених резултата ученика у реалном времену. Снажан наставник такође проверава кохерентност лексема, што спречава модел ученика да учи дегенерисане резултате попут понављаних речи.
За програмере, лепота овог приступа лежи у његовој једноставности. "Заиста нема модификација архитектуре осим додавања посебног токена," рекао је Кирцхенбауер. Кооптирањем неискоришћеног слота у постојећој матрици за уградњу модела да делује као <МТП> токен маске, техника конвертује секвенцијалне операције у паралелне. "Сваки стандардни модел језика за предвиђање следећег токена може се прилагодити на овај начин… интерна имплементација — МоЕ, прозорска пажња, ССМ слојеви, итд. — остају нетакнути и не представљају препреку за прилагођавање."
За инжењерске тимове, ово значи да се прилагођавање може применити на моделе који су већ у производњи без поновне изградње цевовода.
Генерисање више токена у исто време и даље може да угрози тачност одговора у време закључивања. Да би максимизирали брзину генерисања без жртвовања квалитета излаза, аутори уводе адаптивну стратегију декодирања под називом ЦонфАдапт.
ЦонфАдапт процењује праг поузданости, као што је 90%, на сваком кораку. Модел генерише блок токена, али задржава само токене који испуњавају или премашују овај праг високе поузданости. Када је предстојећи текст веома предвидљив или структуриран, поузданост модела је веома висока. Он ће прихватити и избацити велики комад токена одједном, штедећи значајно време рачунања на лаким токенима. Затим фокусира своје скупе пролазе са једним жетоном на теже токене који захтевају више рачунарских напора.
Стављање предвиђања са више токена на тест
Да би видели како се парадигма обуке понаша у пракси, истраживачи су применили свој метод на популарне моделе прилагођене инструкцији са отвореном тежином. Они су тестирали јак модел опште намене Ллама-3.1-8Б-Магпие и мањи, ефикасни Квен3-4Б-Инструцт-2507, који се често бира за примену у предузећима која су осетљива на трошкове. Оба модела су подешена на МетаМатхКА, скупу података синтетичких математичких проблема у основној школи који се у великој мери ослањају на трагове закључивања.
Експерименти су открили јасну слатку тачку између брзине и тачности. Користећи ЦонфАдапт стратегију, модел Ллама-3.1-8Б постигао је 3к убрзање са мање од 3% падом тачности на математичким мерилима. Модел Квен3-4Б постигао је исто 3к убрзање са нешто већим падом тачности од 7%. Агресивнија подешавања могу да доведу до 5к убрзања, иако су долазила са оштријим казнама за прецизност.
Како се ово преводи у стварне задатке зависи од предвидљивости. "Како ЦонфАдапт приступ природно прилагођава убрзање инхерентној ентропији у домену, када модел ‘зна’ тачно шта следи, може га емитовати у једном пролазу," приметио је, што је довело до огромног убрзања на предвидљивим задацима, уз коришћење више корака за неизвесне резултате.
Убрзања су такође пренета на домене који нису били укључени у фазу обуке предвиђања са више токена. Ово је укључивало задатке у истом домену као и подаци за обуку, попут математике и закључивања, као и задатке отвореног типа као што су креативно писање и сумирање.
Упркос овом трансферном учењу, предузећа која примењују ове моделе за специјализоване задатке не би требало да се ослањају на њега у потпуности. "Наша препорука би била да подесите/прилагодите модел за МТП користећи узорке из специјалног индустријског домена," рекао је Кирцхенбауер. "Најбоље перформансе се вероватно постижу ако се МТП адаптација изврши помоћу упита из домена примене."
Компатибилност служења и пут који је пред нама
Истраживачки тим је објавио своје обучени модели на Хуггинг Фаце и ускоро ће бити пуштен код за њихов МТП оквир. Инфраструктурни тимови који интегришу ове моделе у вЛЛМ или СГЛанг мораће да узму у обзир промене у начину на који се рукује батцхинг и КВ кеширањем — али то је једнократна инжењерска инвестиција, а не стални терет. Међутим, Кирцхенбауер види "нема јасних препрека за интеграцију" и потврдио да је тим "радећи са неким системским стручњацима на идентификацији најкраћег пута до интеграције."
Кирцхенбауер-ов савет за тимове који желе да тестирају објављене моделе: почните са играчкама попут бројања или понављања фразе да бисте видели предности ЦонфАдапт-а у акцији, а затим прилагодите модел користећи узорке из вашег специфичног домена примене за најбоље резултате. "Све у свему, очекујемо да би имплементација нашег приступа спремна за производњу могла да поједностави животни циклус изградње и примене агентских модела са малим кашњењем," закључио је Кирхенбауер. "Док се постојеће технике убрзања за НТП моделе фокусирају скоро искључиво на закључивање и логику, наш приступ само уноси део сложености у сам модел чинећи га у великој мери комплементарним постојећем раду."


