

Када предузећа фино подесе ЛЛМ за нове задатке, ризикују да покваре све што модели већ знају. Ово приморава компаније да одржавају засебне моделе за сваку вештину.
Истраживачи са МИТ-а, Импробабле АИ Лаб и ЕТХ Цирих развили су нову технику која омогућава великим језичким моделима да науче нове вештине и знања без заборављања својих прошлих способности.
Њихова техника, тзв фино подешавање самодестилације (СДФТ), омогућава моделима да уче директно из демонстрација и сопствених експеримената користећи инхерентне способности учења у контексту модерних ЛЛМ. Експерименти показују да СДФТ конзистентно надмашује традиционално надгледано фино подешавање (СФТ) док се бави ограничењима алгоритама учења са појачањем.
За пословне апликације, метод омогућава да један модел акумулира више вештина током времена без да пати од регресије перформанси на ранијим задацима. Ово нуди потенцијални пут за изградњу АИ агената који могу да се прилагоде динамичном пословном окружењу, прикупљајући нова власничка знања и вештине по потреби без захтевања скупих циклуса преквалификације или губитка њихових општих способности расуђивања.
Изазов сталног учења
Једном када је ЛЛМ обучен и распоређен, он остаје статичан. Не ажурира своје параметре да би стекао нове вештине, интернализовао ново знање или побољшао искуство. Да би се изградила заиста прилагодљива вештачка интелигенција, индустрија треба да реши "континуирано учење," омогућавајући системима да акумулирају знање слично као и људи током своје каријере.
Најефикаснији начин да модели уче је кроз "учење о политици“. У овом приступу, модел учи из података које сам генерише омогућавајући му да исправи сопствене грешке и процесе закључивања. Ово је у супротности са учењем једноставним опонашањем статичких скупова података. Без учења о политици, модели су склони "катастрофално заборављање," појава где учење новог задатка доводи до тога да модел губи своја досадашња знања и способност да обавља претходне задатке.
Међутим, учење на основу политике обично захтева учење поткрепљења (РЛ), што зависи од експлицитне функције награђивања за бодовање резултата модела. Ово добро функционише за проблеме са јасним исходима, као што су математика и кодирање. Али у многим сценаријима предузећа у стварном свету (нпр. писање правног извештаја или резимирање састанка), дефинисање математичке функције награде је тешко или немогуће.
РЛ методе такође често не успевају када покушавају да науче модел потпуно новим информацијама, као што су протокол одређене компаније или нова линија производа. Како је за ВентуреБеат рекао Идан Схенфелд, докторант на МИТ-у и коаутор рада, "Без обзира колико пута основни модел покуша, он не може да генерише тачне одговоре за тему о којој нема знања," што значи да никада не добија позитиван сигнал за учење.
Стандардна алтернатива је надгледано фино подешавање (СФТ), где се модел обучава на фиксном скупу података стручних демонстрација. Иако СФТ пружа јасну основну истину, он је инхерентан "ван политике." Пошто модел само опонаша податке, а не учи из сопствених покушаја, често не успева да се генерализује на примере ван дистрибуције и тешко пати од катастрофалног заборављања.
СДФТ настоји да премости овај јаз: омогућавајући предности учења на основу политике користећи само унапред снимљене демонстрације, без потребе за наградном функцијом.
Како СДФТ функционише
СДФТ решава овај проблем коришћењем "дестилација," процес у коме модел ученика учи да опонаша наставника. Увид истраживача је био да користе сопствени модел "учење у контексту" (ИЦЛ) могућности за креирање повратне спреге унутар једног модела.
Учење у контексту је феномен у којем ЛЛМ-у дајете тежак задатак и једну или више демонстрација како се слични проблеми решавају. Већина напредних ЛЛМ-ова дизајнирана је за решавање нових проблема са ИЦЛ примерима, без икаквих ажурирања параметара.
Током циклуса обуке, СДФТ користи модел у две улоге.
Учитељ: Замрзнута верзија модела добија упит заједно са демонстрацијама стручњака. Користећи ИЦЛ, наставник закључује тачан одговор и логику расуђивања потребну да до њега дође.
Ученик: Ова верзија види само упит, симулирајући сценарио примене у стварном свету где кључ за одговор није доступан.
Када ученик генерише одговор, наставник, који има приступ стручним демонстрацијама, даје повратну информацију. Ученик затим ажурира своје параметре да би се приближио дистрибуцији наставника.
Овај процес ефективно ствара петљу учења о политици комбиновањем елемената СФТ и РЛ. Надзор не долази из статичког скупа података, већ из сопствене интеракције и излаза модела. Омогућава моделу да коригује сопствене путање размишљања без потребе за спољним сигналом награде. Овај процес функционише чак и за нова знања која би РЛ пропустила.
СДФТ у акцији
Да би потврдили приступ, истраживачи су тестирали СДФТ користећи отворену тежину Модел Квен 2.5 на три сложене вештине пословног нивоа: научна питања и одговори, коришћење софтверских алата и медицинско резоновање.
Резултати су показали да је СДФТ учио нове задатке ефикасније од стандардних метода. На тесту научних питања и одговора, СДФТ модел је постигао 70,2% тачности, у поређењу са 66,2% за стандардни СФТ приступ.
Важније за усвајање предузећа је утицај на катастрофално заборављање. Када је стандардни СФТ модел научио научни задатак, његова способност да одговори на општа питања (као што су логика или хуманистичке науке) је пала. Насупрот томе, СДФТ модел је побољшао научни задатак док је држао свој "Претходни задаци" стабилан резултат на 64,5%. Ова стабилност сугерише да би компаније могле да специјализују моделе за одређена одељења (нпр. за људске ресурсе или правне послове) без деградирања основног здравог разума или способности расуђивања модела.
Тим је такође симулирао сценарио убризгавања знања, стварајући скуп података измишљених "Природне катастрофе 2025" да научи модел новим чињеницама. Тестирали су модел на питањима индиректног резоновања, као нпр "С обзиром на поплаве 2025., којим земљама је вероватно била потребна хуманитарна помоћ?"
Стандардни СФТ је резултирао моделом који је запамтио чињенице, али се борио да их користи у сценаријима закључивања. СДФТ модел, који је усвојио логику током тренинга, постигао је 98% на истим питањима.
Коначно, истраживачи су спровели секвенцијални експеримент учења, обучавајући модел о науци, употреби алата и медицинским задацима један за другим. Док су перформансе стандардног модела осцилирале, губећи претходне вештине како је учио нове, СДФТ модел је успешно акумулирао све три вештине без регресије.
Ова могућност решава главну болну тачку за предузећа којима тренутно управља "модел зоолошких вртова" одвојених адаптера за различите задатке.
"Нудимо могућност одржавања само једног модела за све потребе компаније," рекао је Шенфелд. Ова консолидација "може довести до значајног смањења трошкова закључивања" јер организације не морају да угошћују више модела истовремено.
СДФТ ограничења и доступност
Код за СДФТ је доступан на ГитХуб-у и спреман за интегрисање у постојеће токове рада за обуку модела.
"СДФТ цевовод је сличнији РЛ цевоводу по томе што захтева онлајн генерисање одговора током обуке," рекао је Шенфелд. Они раде са Хуггинг Фаце како би интегрисали СДФТ у потоњи Трансформер Реинфорцемент Леарнинг (ТРЛ), додао је он, напомињући да је захтев за повлачењем већ отворен за програмере који желе да тестирају интеграцију.
За тимове који разматрају СДФТ, практични компромиси се своде на величину модела и израчунавање. Техника захтева моделе са довољно јаким учењем у контексту да делују као сопствени учитељи — тренутно око 4 милијарде параметара са новијим архитектурама као што је Квен 3, иако Шенфелд очекује да ће модели са милијарду параметара ускоро функционисати. Захтева отприлике 2,5 пута више прорачуна од стандардног финог подешавања, али је најпогоднији за организације којима је потребан један модел да акумулирају више вештина током времена, посебно у доменима где је дефинисање функције награђивања за учење са појачањем тешко или немогуће.
Иако је ефикасан, метода долази са рачунским компромисима. СДФТ је отприлике четири пута спорији и захтева 2,5 пута више рачунарске снаге (ФЛОП) од стандардног финог подешавања јер модел мора активно да генерише сопствене одговоре ("роллоутс") током обуке за упоређивање са наставником. Међутим, истраживачи примећују да због тога што модел боље задржава знање, организације могу да избегну скупе вишестепене процесе преквалификације који су често потребни за поправку модела који пате од катастрофалног заборављања.
Техника се такође ослања на то да је основни модел довољно велик да има користи од учења у контексту. Лист наводи да су мањи модели (нпр. 3 милијарде параметара) у почетку имали проблема јер им је недостајало "интелигенција" да делују као сопствени учитељи.
Међутим, Шенфелд је рекао да брзо побољшање малих модела мења ову динамику. "Модели Квен 2.5 3Б су били преслаби, али у неким експериментима које тренутно радимо открили смо да је модел Квен 3 4Б довољно јак," рекао је. "Видим будућност у којој чак и 1Б модели имају довољно добре ИЦЛ могућности да подрже СДФТ."
На крају, циљ је да се одмакне даље од статичких снимака ка системима који се побољшавају употребом.
"Доживотно учење, заједно са могућношћу издвајања сигнала учења из неструктурираних интеракција корисника… донеће моделе који се само настављају и побољшавају с временом“, рекао је Шенфелд.
„Размислите о чињеници да већ већина рачунарства широм света иде у закључке уместо у обуку. Морамо пронаћи начине да искористимо ово рачунање да бисмо побољшали наше моделе."


