Novac

Нвидијина нова техника смањује трошкове ЛЛМ расуђивања за 8 пута без губитка прецизности

Истраживачи из компаније Нвидиа развили су технику која може смањити трошкове меморије за размишљање великог језичког модела до осам пута. Њихова техника, тзв динамичко спарсификација меморије (ДМС), компресује кеш вредности кључа (КВ), ЛЛМ-ови привремене меморије генеришу и чувају док обрађују упите и образлажу проблеме и документе.

Док су истраживачи раније предлагали различите методе за компримовање ове кеш меморије, већина се бори да то уради без деградирања интелигенције модела. Нвидијин приступ успева да одбаци велики део кеш меморије док задржава (и у неким случајевима побољшава) могућности резоновања модела.

Експерименти показују да ДМС омогућава ЛЛМ да "мислити" дуже и истражите више решења без уобичајене казне у погледу брзине или трошкова меморије.

Уско грло расуђивања

ЛЛМ побољшавају своје перформансе на сложеним задацима генерисањем "ланац мисли" токене, у суштини исписују своје кораке образложења пре него што стигну до коначног одговора. Технике скалирања времена закључивања ово користе тако што моделу дају већи буџет за генерисање ових токена размишљања или да паралелно истражује више потенцијалних путева размишљања.

Међутим, ово побољшано резоновање долази са значајним рачунским трошковима. Како модел генерише више токена, он изграђује а КВ кеш.

За апликације у стварном свету, КВ кеш је главно уско грло. Како ланац резоновања расте, кеш меморија расте линеарно, трошећи огромне количине меморије на ГПУ-овима. Ово приморава хардвер да троши више времена на читање података из меморије него на стварно рачунање, што успорава генерисање и повећава кашњење. Такође ограничава број корисника које систем може истовремено да опслужује, јер недостатак ВРАМ-а доводи до пада система или успоравања индексирања.

Нвидиа истраживачи ово не представљају само као техничку препреку, већ и као основну економску препреку за предузеће.

"Питање није само у количини хардвера; ради се о томе да ли ваша инфраструктура обрађује 100 нити размишљања или 800 нити за исту цену," Пиотр Наврот, виши инжењер дубоког учења у Нвидији, рекао је за ВентуреБеат.

Ранији покушаји да се ово реши фокусирали су се на приступе засноване на хеуристици. Ове методе користе строга правила, као што су а "клизни прозор" који кешује само најновије токене и брише остале. Иако ово смањује употребу меморије, често приморава модел да одбаци критичне информације потребне за решавање проблема, деградирајући тачност излаза.

"Стандардне методе исељавања покушавају да изаберу старе и неискоришћене токене за избацивање користећи хеуристику," рекли су истраживачи. "Они поједностављују проблем, надајући се да ће одговор остати тачан ако приближе унутрашњу механику модела."

Друга решења користе странице за претовар неискоришћених делова КВ кеша у спорију меморију, али стална размена података доводи до кашњења што чини апликације у реалном времену спорим.

Динамичко разрјеђивање меморије

ДМС има другачији приступ "ретрофиттинг" постојеће ЛЛМ да интелигентно управљају сопственом меморијом. Уместо да примењује фиксно правило шта да се избрише, ДМС обучава модел да идентификује који су токени неопходни за будуће размишљање, а који су за једнократну употребу.

"То не нагађа само важност; учи политику која експлицитно чува коначну дистрибуцију излаза модела," Наврот је рекао.

Процес трансформише стандардни, унапред обучени ЛЛМ као што је Ллама 3 или Квен 3 у модел који се сам компресује. Оно што је најважније, ово не захтева обуку модела од нуле, што би било прескупо. Уместо тога, ДМС пренамењује постојеће неуроне унутар слојева пажње модела да би произвео а "задржати" или "иселити" сигнал за сваки токен.

За тимове који су забринути због сложености накнадног опремања, истраживачи су приметили да је процес дизајниран да буде лаган. "Да би се побољшала ефикасност овог процеса, тежине модела се могу замрзнути, што чини процес сличним адаптацији ниског ранга (ЛоРА)," Наврот је рекао. То значи стандардни модел предузећа као што је Квен3-8Б "може се накнадно опремити са ДМС-ом у року од неколико сати на једном ДГКС Х100."

Један од важних делова ДМС-а је механизам тзв "одложено исељење." У стандардној спарсификацији, ако се токен сматра неважним, одмах се брише. Ово је ризично јер моделу може бити потребан делић секунде да интегрише контекст тог токена у његово тренутно стање.

ДМС то ублажава тако што означава токен за избацивање, али га држи доступним у кратком временском периоду (нпр. неколико стотина корака). Ово кашњење омогућава моделу да "екстракт" све преостале неопходне информације из токена и спојите их у тренутни контекст пре него што се токен избрише из КВ кеша.

„Механизам ‘одложеног избацивања’ је кључан јер нису сви токени једноставно ‘важни’ (чувајте заувек) или ‘бескорисни’ (одмах избришите). Многи се налазе између – они носе неке информације, али не довољно да оправдају заузимање читавог места у меморији“, рекао је Наврот. „Овде лежи редундантност. Држањем ових токена у локалном прозору кратко време пре избацивања, дозвољавамо моделу да се брине о њима и редистрибуира њихове информације у будуће токене.“

Истраживачи су открили да је овај процес накнадног опремања веома ефикасан. Могли би унапред обученог ЛЛМ-а опремити ДМС-ом у само 1.000 корака обуке, што је мали део рачунања потребног за првобитну обуку. Добијени модели користе стандардна језгра и могу директно да се спусте у постојеће стекове закључивања високих перформанси без прилагођеног хардверског или сложеног софтверског поновног писања.

ДМС у акцији

Да би потврдили технику, истраживачи су применили ДМС на неколико модела резоновања, укључујући серију Квен-Р1 (дестиловану из ДеепСеек Р1) и Ллама 3.2, и тестирали их на тешким мерилима као што су АИМЕ 24 (математика), ГПКА Диамонд (наука) и ЛивеЦодеБенцх (кодирање).

Резултати показују да ДМС ефикасно помера Парето границу, оптимални компромис између цене и перформанси. На АИМЕ 24 математичком бенцхмарк-у, модел Квен-Р1 32Б опремљен ДМС-ом постигао је резултат за 12,0 поена већи од стандардног модела када је био ограничен на исти буџет меморијског пропусног опсега. Компресијом кеша, модел је могао да приушти "мислити" много дубље и шире него што би стандардни модел могао за исти буџет за меморију и рачунар.

Можда највише изненађује то што је ДМС пркосио уобичајеној мудрости да компресија штети разумевању дугог контекста. У "игла у пласту сена" тестовима, који мере способност модела да пронађе одређену информацију закопану у великом документу, ДМС варијанте су заправо надмашиле стандардне моделе. Активним управљањем својом меморијом уместо пасивним гомилањем буке, модел је задржао чистији, кориснији контекст.

За инфраструктуру предузећа, повећање ефикасности се директно преводи у пропусност и уштеде на хардверу. Пошто је кеш меморија знатно мањи, ГПУ троши мање времена на преузимање података, смањујући време чекања за кориснике. У тестовима са моделом Квен3-8Б, ДМС је одговарао прецизности модела ваниле, док је испоручио до 5к већи проток. То значи да један сервер може да обради пет пута више упита корисника у секунди без пада квалитета.

Будућност сећања

Нвидиа је објавила ДМС као део свог КВПпресс библиотека. Што се тиче начина на који предузећа могу да почну са ДМС-ом, Наврот је нагласио да је баријера за улазак ниска. "’Минимална одржива инфраструктура’ су стандардни цевоводи Хуггинг Фаце – нису потребни прилагођени ЦУДА кернели," Наврот је рекао, напомињући да је код у потпуности компатибилан са стандардним ФласхАттентион-ом.

Гледајући унапред, тим посматра ДМС као део веће промене у којој управљање меморијом постаје посебан, интелигентан слој АИ стека. Наврот је такође потврдио да ДМС јесте "потпуно компатибилан" са новијим архитектурама попут Латентна пажња са више глава (МЛА) који се користи у моделима ДеепСеек-а, што сугерише да би комбиновање ових приступа могло донети још већу ефикасност.

Како предузећа прелазе са једноставних робота за ћаскање на сложене агентске системе који захтевају проширено резоновање, цена закључивања постаје примарна брига. Технике попут ДМС-а обезбеђују пут за одрживо повећање ових могућности.

"Једва смо загребали површину онога што је могуће," Наврот је рекао, "и очекујемо да ће се скалирање времена закључивања даље развијати."

извор линк

Оставите одговор

Ваша адреса е-поште неће бити објављена. Неопходна поља су означена *

Back to top button