

Истраживачи са Станфорда, Нвидиа-е и Тогетхер АИ развили су нову технику која може открити нова рјешења за веома сложене проблеме. На пример, успели су да оптимизују критично језгро ГПУ-а да ради 2к брже од претходног најсавременијег писаног од стране стручњака за људе.
Њихова техника, названа „Обука током теста за откривање” (ТТТ-Дисцовер), доводи у питање тренутну парадигму пуштања модела да „дуже размишљају” о проблемима резоновања. ТТТ-Дисцовер омогућава моделу да настави обуку током процеса закључивања и ажурира своје тежине за проблем који је при руци.
Границе ‘замрзнутог’ резоновања
Тренутне стратегије АИ предузећа се често ослањају на "смрзнути" модели. Било да користите затворени или отворени модел резоновања, параметри модела су статични. Када затражите од ових модела, они траже одговоре унутар фиксног низа својих података о обуци. Ово добро функционише за проблеме који личе на оно што је модел раније видео.
Међутим, прави проблеми откривања, попут проналаска новог алгоритма или доказивања нове математичке теореме, су, по дефиницији, ван дистрибуције. Ако решење захтева искорак логике који не постоји у скупу за обуку, замрзнути модел ће вероватно пропасти, без обзира на то колико рачунања уложите на њега током закључивања.
У коментарима за ВентуреБеат, Мерт Јуксекгонул, коаутор рада и докторант на Станфорду, илустровао је ову разлику користећи чувени математички напредак:
"Верујем да модели размишљања не би могли да докажу, на пример, П != НП, без обуке током теста, баш као што Ендрју Вајлс не би могао да докаже Фермаову последњу теорему без 7 година које је провео бавећи се овим јединим проблемом у изолацији и континуирано учећи из сопствених неуспеха."
ТТТ-Дисцовер не третира проблем теста као упит на који треба одговорити, већ као окружење које треба савладати. Како модел покушава да реши проблем, он генерише различите типове података: неуспехе, делимичне успехе и грешке. Уместо да одбаци ове податке, ТТТ-Дисцовер их користи да ажурира тежине модела у реалном времену, ефективно омогућавајући моделу да се ласерски фокусира на тај специфични изазов за разлику од развоја веома општег оквира за решавање проблема.
Другачији приступ учењу са поткрепљењем
ТТТ-Дисцовер пружа фундаменталну промену у томе како се обучавају модели расуђивања. У стандардној обуци учења уз поткрепљивање (РЛ), циљ је општа политика која се у просеку добро изводи у многим задацима. У ТТТ-Дисцоверу циљ је пронаћи најбоље решење за врло специфичан проблем, а политика је „средство за постизање овог циља“, према ауторима. Када модел открије артефакт (тј. оптимизовани код, доказ или молекул), неуронска мрежа која га је произвела може се одбацити.
Да би ово постигли, истраживачи су конструисали две специфичне компоненте које разликују ТТТ-Дисцовер од стандардног учења са појачањем:
-
Ентропски циљ: Стандардни РЛ оптимизује за просечну очекивану награду. Ако модел покуша ризичан пут и не успе, стандардни РЛ то кажњава. ТТТ-Дисцовер окреће ово. Користи ан "ентропијски циљ" који експоненцијално тежи исходима високе награде. Ово приморава модел да игнорише "сигурно," просечне одговоре и агресивно ловити "еурека" оутлиерс, решења која имају малу вероватноћу да буду пронађена, али нуде огромну награду.
-
ПУЦТ претрага: Систем уводи ПУЦТ, алгоритам за претрагу дрвета инспирисан АлпхаЗеро. Истражује различите путеве решења, стварајући скуп података покушаја. Модел се затим тренира на овом скупу података у реалном времену, учећи да препозна који делимични кораци воде до резултата високе награде.
Оно што је најважније, овај метод најбоље ради на проблемима са континуираним сигналом награде. Систему је потребан начин за мерење инкременталног напретка као нпр "време извођења у микросекундама" или "стопа грешке" а не бинарни "проћи/неуспети" сигнал. Ово омогућава моделу да прати постепено побољшање ка оптималном решењу.
Економија ‘тешког закључивања’
За предузећа која су навикла да плаћају делиће цента по АПИ позиву, профил трошкова ТТТ-Дисцовер-а захтева промену начина размишљања. У својим експериментима, истраживачи су известили да једно откривање укључује отприлике 50 корака обуке и хиљаде увођења, што кошта отприлике 500 долара по проблему.
ТТТ-Дисцовер би могао бити за „статична средства високе вредности“ за разлику од тривијалних и понављајућих проблема који се могу решити постојећим моделима и приступима.
Размислите о предузећу које се налази у облаку и покреће цевовод података који обрађује петабајте информација сваке ноћи. Ако се тај цевовод ослања на одређени СКЛ упит или ГПУ кернел, оптимизација тог кода за само 1% могла би уштедети стотине хиљада долара у годишњим трошковима рачунања. У овом контексту, трошење 500 долара за проналажење кернела који је 50% бржи је тривијалан трошак са тренутним РОИ.
"Ово има највише смисла за нискофреквентне одлуке са великим утицајем где једно побољшање вреди много више од трошкова израчунавања," Иуксегонул је рекао. "Усмеравање ланца снабдевања, дизајн лекова и откривање материјала испуњавају услове. У овим поставкама, трошење стотина долара на један корак откривања може се лако исплатити."
Разматрања о имплементацији
Један од најзначајнијих налаза за усвајање предузећа је да ТТТ-Дисцовер не захтева власнички гранични модел. Истраживачи су постигли врхунске резултате користећи гпт-осс-120бОпенАИ-јев модел отворених тежина. Истраживачи имају објавио код за ТТТ-Дисцовер да омогући истраживачима и програмерима да га користе за своје моделе.
Пошто техника функционише са отвореним моделима, компаније могу ово да покрену "петља открића" у потпуности у оквиру сопствених безбедних ВПЦ-ова или локалних Х100 кластера без слања својих власничких података на сервере трећих страна.
„Ако компанија већ води учење уз помоћ, није потребна додатна инфраструктура“, рекао је Иуксекгонул. „ТТТ-Дисцовер користи исти стек за обуку (ГПУ-ови, радници за увођење, оптимизатори, контролне тачке).“
Ако већ не покрећу РЛ, морали би да изграде ту инфраструктуру. Али предузећа такође могу да користе постојећа решења да смање сложеност процеса. Истраживачи су организовали ове тренинге користећи Тинкер АПИ од Тхинкинг Мацхинес, АПИ који управља сложеношћу дистрибуиране обуке и закључивања.
„Алати као што је Тинкер (и отворене варијанте, нпр. ОпенТинкер) смањују трошкове подешавања, а трошкови рада и рачунара ће вероватно пасти током времена“, рекао је он.
Случајеви употребе у стварном свету
Истраживачи су применили ТТТ-Дисцовер у четири различита техничка домена: системски инжењеринг, дизајн алгоритама, биологија и математика. У скоро сваком случају, метода је поставила ново стање технике.
У једном експерименту, модел је оптимизовао ГПУ кернеле за множење матрице (укључујући и "ТриМул" језгро које се користи у АлпхаФолд), постижући брзину извршавања до 2к брже од претходних најсавременијих и надмашујући најбоље језгре које су написали људи на табели.
У сценаријима конкурентног програмирања (АтЦодер), решио је сложене хеуристичке проблеме (нпр. оптимизовање геометријских ограничења за рибарске мреже) боље од врхунских стручњака за људе и ранијих основа вештачке интелигенције.
За предузеће, прелазак са ових академских мерила на пословну вредност зависи од једног специфичног ограничења: постојања проверљивог, скаларног сигнала. За разлику од цхат бота који генерише текст, ТТТ-Дисцовер-у је потребна чврста метрика (нпр. време рада, стопа грешке или профитна маржа) за оптимизацију.
Иуксекгонул је рекао да овај захтев повлачи јасну границу између тога где би ова технологија требало, а где не би требало да се користи. "У овом тренутку, кључни захтев је поуздан скаларни сигнал напретка — цена, грешка, молекуларна својства — према којем систем може да оптимизује," рекао је.
Ово усмерава усвајање предузећа ка "тешко" инжењерски и оперативни изазови као што су логистика, ланац снабдевања и управљање ресурсима, где се проблеми попут рутирања флоте или распореда посаде често ослањају на статичку хеуристику. ТТТ-Дисцовер их може третирати као окружења за оптимизацију, трошећи сате да пронађе структуру руте која смањује дневне трошкове горива за 5%.
Захтев за јасним верификаторима искључује квалитативне задатке као што су "написати бољу маркетиншку стратегију," где је верификација субјективна и склона буци.
"Проблеми које је тешко проверити су и даље отворено питање“, рекао је Иуксегонул.
Са тренутном технологијом, најбољи пут напред је да покушамо да дизајнирамо верификаторе, али „учинити те верификаторе робусним и тешким за игру је изазов, а ми још немамо добро решење," додао је он.
Од закључивања до проналаска
Шира импликација је да ће корпоративни АИ стекови можда морати да еволуирају како би подржали ову врсту учења по проблему.
„Системи изграђени око замрзнутог модела ће морати да подрже прилагођавање по проблему (или по домену), а предузећима ће бити потребне боље спецификације проблема и интерни сигнали повратних информација како би учење током теста било ефективно“, рекао је Иуксекгонул. „Ако се обука одвија унутар приватног ВПЦ-а, петља за обуку такође може бити интегрисана са више унутрашњег окружења компаније, а не само са централним лабораторијским цевоводом.“
За предузеће, вредност лежи у идентификацији "милионски проблеми“, изазови оптимизације тамо где постоји проверљива метрика, али људски напредак је застао. Ово су кандидати за ТТТ-Дисцовер. Прихватањем већег кашњења и трошкова за специфичне упите, предузећа могу да претворе своје закључивање у аутоматизовану лабораторију за истраживање и развој, откривајући решења која су раније била ван домашаја и за људе и за замрзнуте моделе.


