

Смањење трошкова закључивања је обично комбинација хардвера и софтвера. Нова анализа коју је у четвртак објавила Нвидиа описује како четири водећа провајдера закључивања пријављују 4к до 10к смањење цене по токену.
Драматично смањење трошкова постигнуто је коришћењем Нвидијине Блацквелл платформе са моделима отвореног кода. Подаци о имплементацији производње из Басетен, ДеепИнфра, Фиреворкс АИ и Тогетхер АИ показују значајна побољшања трошкова у здравству, играма, агентском ћаскању и корисничкој служби, јер предузећа пребацују АИ од пилот пројеката до милиона корисника.
Смањење трошкова од 4к до 10к које су пријавили добављачи инференције захтевало је комбиновање Блацквелл хардвера са још два елемента: оптимизованим софтверским стековима и преласком са власничких на моделе отвореног кода који сада одговарају интелигенцији на граничном нивоу. Према анализи, само побољшања хардвера донела су 2к добит у неким применама. Постизање већих смањења трошкова захтевало је усвајање формата ниске прецизности као што је НВФП4 и удаљавање од АПИ-ја затвореног кода који наплаћују премијум стопе.
Економија се показала контраинтуитивном. Смањење трошкова закључивања захтева улагање у инфраструктуру виших перформанси јер се побољшања пропусности директно претварају у ниже трошкове по токену.
"Учинак је оно што смањује цену закључивања," Дион Харис, виши директор ХПЦ и АИ хиперскалера у Нвидији, рекао је за ВентуреБеат у ексклузивном интервјуу. "Оно што видимо у закључку је да се пропусност буквално преводи у стварну вредност у доларима и смањује цену."
Примене у производњи показују смањење трошкова од 4к до 10к
Нвидиа је детаљно описала четири имплементације корисника у блог посту који показује како комбинација Блацквелл инфраструктуре, оптимизованих софтверских стекова и модела отвореног кода доноси смањење трошкова у различитим радним оптерећењима у индустрији. Студије случаја обухватају апликације великог обима где економија закључивања директно одређује одрживост пословања.
Сулли.аи је смањио трошкове закључивања АИ у здравству за 90% (смањење од 10к), док је време одзива побољшало 65% преласком са власничког модела на моделе отвореног кода који раде на Басетеновој платформи коју покреће Блацквелл, према Нвидији. Компанија је лекарима вратила преко 30 милиона минута аутоматизацијом медицинских задатака кодирања и вођења белешки који су претходно захтевали ручни унос података.
Нвидиа је такође известила да је Латитуде 4 пута смањио трошкове закључивања игара за своју АИ Дунгеон платформу тако што је покренуо велике моделе мешавине стручњака (МоЕ) на ДеепИнфра Блацквелл имплементацији. Цена по милион токена је пала са 20 центи на Нвидијиној претходној Хоппер платформи на 10 центи на Блацквелл-у, а затим на 5 центи након усвајања Блацквелл-овог изворног НВФП4 формата ниске прецизности. Сам хардвер је донео 2к побољшање, али достизање 4к захтева прецизну промену формата.
Према Нвидији, Сентиент Фоундатион је постигла 25% до 50% бољу исплативост за своју платформу за агентичко ћаскање користећи Фиреворкс АИ оптимизовану групу закључивања за Блацквелл. Платформа оркестрира сложене токове рада са више агената и обрађује 5,6 милиона упита у једној недељи током свог виралног покретања уз одржавање ниске латенције.
Нвидиа је саопштила да је Децагон забележио 6к смањење трошкова по упиту за гласовну корисничку подршку засновану на вештачкој интелигенцији тако што је покренуо свој мултимоделни стек на Тогетхер АИ Блацквелл инфраструктури. Време одговора је остало испод 400 милисекунди, чак и када се обрађују хиљаде токена по упиту, што је критично за гласовне интеракције где кашњења узрокују да корисници прекину везу или изгубе поверење.
Технички фактори доводе до 4к у односу на 10к побољшања
Опсег од 4к до 10к смањења трошкова у свим применама одражава различите комбинације техничких оптимизација, а не само хардверске разлике. Три фактора се појављују као примарни покретачи: усвајање прецизног формата, избор архитектуре модела и интеграција софтверског стека.
Прецизни формати показују најјаснији утицај. Латитудеов случај то директно показује. Прелазак са Хоппер-а на Блацквелл донео је 2к смањење трошкова кроз хардверска побољшања. Усвајање НВФП4, Блацквелл-овог изворног нископрецизног формата, удвостручило је то побољшање на укупно 4к. НВФП4 смањује број битова потребних за представљање тежине модела и активација, омогућавајући више израчунавања по циклусу ГПУ-а уз задржавање тачности. Формат посебно добро функционише за моделе Министарства економије где се само подскуп модела активира за сваки захтев за закључивање.
Архитектура модела је важна. МоЕ модели, који активирају различите специјализоване под-моделе на основу инпута, имају користи од Блацквелл-ове НВЛинк тканине која омогућава брзу комуникацију између стручњака. "Када ти стручњаци комуницирају преко те НВЛинк тканине, омогућава вам да врло брзо размишљате," рекао је Харис. Густи модели који активирају све параметре за сваки закључак не користе ову архитектуру тако ефикасно.
Интеграција софтверског стека ствара додатне делте перформанси. Харис је рекао да Нвидијин приступ заједничког дизајна – где су Блацквелл хардвер, НВЛ72 архитектура за повећање величине и софтвер као што су Динамо и ТенсорРТ-ЛЛМ оптимизовани заједно – такође чини разлику. Басетен-ова примена за Сулли.аи користила је овај интегрисани стек, комбинујући НВФП4, ТенсорРТ-ЛЛМ и Динамо да би се постигло смањење трошкова 10к. Провајдери који користе алтернативне оквире као што је вЛЛМ могу остварити мањи добитак.
Карактеристике радног оптерећења су важне. Модели расуђивања показују посебне предности на Блацквелл-у јер генеришу знатно више токена за постизање бољих одговора. Способност платформе да ефикасно обрађује ове проширене секвенце токена кроз дисагрегирано послуживање, где се претходно попуњавање контекста и генерисање токена рукују одвојено, чини радно оптерећење расуђивања исплативим.
Тимови који процењују потенцијално смањење трошкова треба да испитају своје профиле оптерећења у односу на ове факторе. Високо радно оптерећење генерисања токена коришћењем модела мешавине стручњака са интегрисаним Блацквелл софтверским стеком приближиће се опсегу од 10к. Мањи обим токена користећи густе моделе на алтернативним оквирима ће се приближити 4к.
Шта тимови треба да тестирају пре миграције
Док се ове студије случаја фокусирају на Нвидиа Блацквелл имплементације, предузећа имају више путева за смањење трошкова закључивања. АМД-ова серија МИ300, Гоогле ТПУ и специјализовани акцелератори закључивања из Грок и Церебрас нуде алтернативне архитектуре. Провајдери у облаку такође настављају да оптимизују своје услуге закључивања. Питање није да ли је Блацквелл једина опција, већ да ли специфична комбинација хардвера, софтвера и модела одговара одређеним захтевима радног оптерећења.
Предузећа која разматрају закључивање засновано на Блацквелл-у требало би да почну са израчунавањем да ли њихово радно оптерећење оправдава промене инфраструктуре.
"Предузећа треба да се повуку са својих радних оптерећења и ограничења употребе и трошкова," Схрути Копаркар, маркетинг АИ производа у Нвидији, рекла је за ВентуреБеат.
Примене које су постигле 6к до 10к побољшања, све су укључивале велике количине апликација осетљивих на кашњење које обрађују милионе захтева месечно. Тимови који користе мање количине или апликације са буџетом кашњења већим од једне секунде треба да истраже софтверску оптимизацију или промену модела пре него што размотре надоградњу инфраструктуре.
Тестирање је важније од спецификација добављача. Копаркар наглашава да провајдери објављују метрику протока и кашњења, али они представљају идеалне услове.
"Ако се ради о радном оптерећењу које је веома осетљиво на кашњење, можда ће желети да тестирају неколико провајдера и виде ко испуњава минимум који им је потребан, а да притом смање трошкове," рекла је. Тимови би требало да покрећу стварна производна радна оптерећења код више Блацквелл провајдера како би измерили стварне перформансе у складу са њиховим специфичним обрасцима коришћења и наглим порастом саобраћаја, а не да се ослањају на објављене референтне вредности.
Постепени приступ који користи Латитуде пружа модел за евалуацију. Компанија је прво прешла на Блацквелл хардвер и измерила 2к побољшање, а затим је усвојила НВФП4 формат да би постигла укупно смањење од 4к. Тимови који тренутно користе Хоппер или другу инфраструктуру могу да тестирају да ли прецизне промене формата и оптимизација софтвера на постојећем хардверу остварују значајне уштеде пре него што се обавежу на пуну миграцију инфраструктуре. Покретање модела отвореног кода на тренутној инфраструктури може донети половину потенцијалног смањења трошкова без улагања у нови хардвер.
Избор добављача захтева разумевање разлика у софтверском стеку. Док више провајдера нуди Блацквелл инфраструктуру, њихове софтверске имплементације варирају. Неки покрећу Нвидијин интегрисани стек користећи Динамо и ТенсорРТ-ЛЛМ, док други користе оквире као што је вЛЛМ. Харис признаје да постоје разлике у перформансама између ових конфигурација. Тимови би требало да процене шта сваки провајдер заправо покреће и како то одговара њиховим захтевима радног оптерећења уместо да претпостављају да све Блацквелл имплементације раде идентично.
Економска једначина се протеже даље од цене по токену. Специјализовани добављачи закључивања као што су Басетен, ДеепИнфра, Фиреворкс и Тогетхер нуде оптимизоване примене, али захтевају управљање додатним односима са добављачима. Управљане услуге из АВС-а, Азуре-а или Гоогле Цлоуд-а могу имати веће трошкове по токену, али нижу оперативну сложеност. Тимови би требало да израчунају укупне трошкове укључујући оперативне трошкове, а не само закључке, да би утврдили који приступ даје бољу економичност за њихову специфичну ситуацију.


