Novac

Антхропиц-ов Соннет 4.6 одговара водећим перформансама АИ по петини цене, убрзавајући усвајање предузећа

Антропски у уторак пуштен Клод Сонет 4.6модел који представља догађај сеизмичке промене цена за индустрију вештачке интелигенције. Пружа скоро водећу интелигенцију по цени средњег нивоа, и слеће усред невиђене корпоративне журбе да примени АИ агенте и аутоматизоване алате за кодирање.

Модел је потпуна надоградња преко кодирања, употребе рачунара, размишљања у дугом контексту, планирања агената, рада знања и дизајна. Има прозор контекста од 1М токена у бета верзији. Сада је подразумевани модел у цлауде.аи и Цлауде Цоворка цене су стабилне на 3 УСД/15 УСД за милион токена — исто као и његов претходник, Соннет 4.5.

Тај детаљ о цени је наслов који је најважнији. Антхропиц-ов водећи брод Опус модели коштају 15 УСД/75 УСД за милион токена — пет пута већа цена сонета. Ипак, перформансе које би раније захтевале посезање за моделом класе Опус — укључујући и стварне, економски вредне канцеларијске задатке — сада су доступне са Сонетом 4.6. За хиљаде предузећа која сада примењују АИ агенте који упућују милионе АПИ позива дневно, та математика мења све.

Зашто су трошкови вођења АИ агената у великом обиму управо драматично пали

Да бисте разумели значај овог издања, морате разумети тренутак у који оно стиже. Прошлом годином доминирали су феномени близанаца: "кодирање вибрације" и агентиц АИ. Цлауде Цоде — Антхропиц-ов терминалски алат за развојне програмере — постао је културна сила у Силицијумској долини, са инжењерима који праве читаве апликације кроз разговор на природном језику. Њујорк тајмс је у јануару профилисао свој метеорски успон. Тхе Верге је недавно објавио да Клод код има истинску "момент." ОпенАИ, у међувремену, води сопствену офанзиву са Цодек десктоп апликацијама и бржим чиповима за закључивање.

Резултат је индустрија у којој се модели вештачке интелигенције више не процењују изоловано. Они се процењују као мотори унутар аутономних агената — система који раде сатима, упућују хиљаде позива алата, пишу и извршавају код, крећу се у претраживачима и комуницирају са софтвером предузећа. Сваки долар потрошен на милион токена се множи у тим хиљадама позива. На нивоу, разлика између 15 и 3 долара по милиону улазних токена није инкрементална. То је трансформационо.

Референтна табела коју је Антхропиц објавио даје упечатљиву слику. Он СВЕ-клупа Верификованоиндустријски стандардни тест за софтверско кодирање у стварном свету, Соннет 4.6 је постигао 79,6% — скоро се подудара са 80,8% Опуса 4.6. О агентској употреби рачунара (ОСВорлд-Верифиед), Сонет 4.6 је постигао 72,5%, у суштини изједначен са Опус 4.6 са 72,7%. На канцеларијским задацима (ГДПвал-АА Ело), Сонет 4.6 је заправо постигао 1633, надмашивши Опус 4.6 1606. На основу агентске финансијске анализе, Сонет 4.6 је достигао 63,3%, надмашивши сваки модел у поређењу, укључујући Опус 4,6 са 60,1%.

То нису маргиналне разлике. У многим категоријама предузећа највише брину, Сонет 4.6 одговара или беатс моделима који коштају пет пута више за покретање. Предузеће које покреће АИ агент који обрађује 10 милиона токена дневно је раније било принуђено да бира између инфериорних резултата по нижој цени или супериорних резултата уз брзо повећање трошкова. Сонет 4.6 у великој мери елиминише тај компромис.

У Цлауде Цодерано тестирање је показало да корисници преферирају Сонет 4.6 преко Сонета 4.5 отприлике 70% времена. Корисници су чак више волели Сонет 4.6 него Опус 4.5, Антхропицов гранични модел из новембра, у 59% случајева. Оценили су Сонет 4.6 као значајно мање склон претераном инжењерингу и "лењост," и значајно боље у праћењу инструкција. Пријавили су мање лажних тврдњи о успеху, мање халуцинација и доследније праћење задатака у више корака.

Како су Клодове способности коришћења рачунара прешле од „експерименталне“ до скоро људске за 16 месеци

Једна од најдраматичнијих прича у издању је Антхропиц-ов напредак у коришћењу рачунара — способност вештачке интелигенције да управља рачунаром на начин на који људи раде, кликћући мишем, куцајући на тастатури и навигацију софтвером којем недостају модерни АПИ-ји.

Када је Антхропиц први пут представио ову могућност у октобру 2024. године, компанија је признала да је "још увек експериментално – понекад гломазно и склоно грешкама." Бројеви од тада говоре изванредну причу: он ОСВорлдКлод Сонет 3.5 постигао је 14,9% у октобру 2024. Сонет 3,7 је достигао 28,0% у фебруару 2025. Сонет 4 је достигао 42,2% до јуна. Сонет 4.5 попео се на 61,4% у октобру. Сада је Сонет 4.6 достигао 72,5% — скоро петоструко побољшање за 16 месеци.

Ово је важно јер коришћење рачунара представља могућност која откључава најшири скуп пословних апликација за АИ агенте. Скоро свака организација има застарели софтвер — портале осигурања, државне базе података, ЕРП системе, алате за планирање болница — који је направљен пре него што су АПИ-ји постојали. Модел који може једноставно да погледа екран и ступи у интеракцију са њим, отвара све ово за аутоматизацију без прављења конектора по мери.

Џејми Каф, извршни директор компаније Пејс, рекао је да је Сонет 4.6 достигао 94% на њиховом коришћењу рачунара за комплексно осигурање, што је највише од свих тестираних Цлауде модела. "Образлаже кроз неуспехе и самоисправља се на начине које раније нисмо видели," Каф је рекао у изјави посланој ВентуреБеат-у. Вил Харви, суоснивач компаније Цонвеи, назвао је то "јасно побољшање у односу на било шта друго што смо тестирали у нашим евалуацијама."

Безбедносна димензија употребе рачунара такође је привукла пажњу. Антропик је приметио да употреба рачунара позира ризик од брзе ињекције — злонамерни актери који крију упутства на веб локацијама да отму модел — и рекли су да његове процене показују да је Сонет 4.6 велико побољшање у односу на Сонет 4.5 у одупирању таквим нападима. За предузећа која примењују агенте који претражују веб и комуницирају са спољним системима, то учвршћивање није обавезно.

Пословни корисници кажу да модел затвара јаз између ценовних нивоа Соннет и Опус

Реакција купаца је била необично специфична у погледу динамике трошкова и учинка. Неколико раних тестера експлицитно је описало Сонет 4.6 као елиминисање потребе да се посегне за скупљим Опус нивоом.

Цаитлин Цолгрове, ЦТО Хек Тецхнологиес, ​​рекла је да компанија премешта већину свог саобраћаја у Сонет 4.6напомињући да уз адаптивно размишљање и велики напор, "видимо перформансе на нивоу Опуса за све осим наших најтежих аналитичких задатака са ефикаснијим и флексибилнијим профилом. По ценама Соннет, то је једноставан позив за наша оптерећења."

Бен Кус, технички директор компаније Бок, рекао је да је модел надмашио Соннет 4.5 у тешким питањима и одговорима за 15 процентних поена у стварним пословним документима. Мицхеле Цатаста, председник Реплита, назвао је однос перформанси и трошкова "изванредан." Рајан Вигинс из Мерцури Банкинга је то рекао једноставније: "Цлауде Соннет 4.6 је бржи, јефтинији и вероватније ће успети из првог покушаја. Та комбинација је била изненађујућа комбинација побољшања и нисмо очекивали да ћемо је видети по овој цени."

Побољшања кодирања посебно одјекују с обзиром на доминацију Цлауде Цоде-а на тржишту алата за програмере. Давид Локер, потпредседник АИ у ЦодеРаббит-у, рекао је модел "удара далеко изнад своје тежине за огромну већину ПР-а у стварном свету." Лео Чураков из Фацтори АИ рекао је да тим јесте "прелазећи наш сонетни саобраћај на овај модел." ГитХуб-ов потпредседник за производе, Џо Биндер, потврдио је да модел јесте "већ се истиче у сложеним исправкама кода, посебно када се тражи преко великих кодних база."

Брендан Фалк, оснивач и извршни директор Херкулеса, отишао је даље: "Цлауде Соннет 4.6 је најбољи модел који смо до сада видели. Има Опус 4.6 ниво тачности, праћење инструкција и кориснички интерфејс, све по значајно нижој цени."

Симулирано пословно такмичење открива како АИ агенти планирају месецима, а не минутама

Закопана у техничким детаљима је могућност која наговештава куда се крећу аутономни АИ агенти. Прозор контекста од 1М токена Сонета 4.6 може да садржи читаве базе кода, дугачке уговоре или десетине истраживачких радова у једном захтеву. Антхропиц каже да модел ефикасно образлаже читав тај контекст – тврдњу коју је компанија показала кроз необичну процену.

Тхе Вендинг-Бенцх Арена тестира колико добро модел може да води симулирани посао током времена, са различитим АИ моделима који се такмиче једни против других за највећи профит. Без људског подстицаја, Сонет 4.6 развила је нову стратегију: уложила је много у капацитете првих десет симулираних месеци, трошећи знатно више од својих конкурената, а затим се оштро окренула да се фокусира на профитабилност у последњем делу. Модел је завршио своју 365-дневну симулацију на око 5.700 долара у равнотежи, у поређењу са Сонетом 4.5 око 2.100 долара.

Ова врста вишемесечног стратешког планирања, спроведена аутономно, представља квалитативно другачију способност од одговарања на питања или генерисања исечака кода. То је тип размишљања дугог хоризонта који чини агенте вештачке интелигенције одрживим за стварне пословне операције — и помаже да се објасни зашто Антхропиц позиционира Соннет 4.6 не само као надоградњу цхатбот-а, већ као мотор за нову генерацију аутономних система.

Антхропицов Сонет 4.6 стиже док се компанија шири на тржишта предузећа и одбране

Ово издање не долази у вакууму. Антропик се налази усред највећег дела у својој историји, а такмичарски пејзаж се интензивира на свим фронтовима.

Истог дана када је ово лансирање, ТецхЦрунцх је известио о том индијском ИТ гиганту Инфосис је најавио партнерство са компанијом Антхропиц да направи АИ агенте за предузећа, интегришући Цлауде моделе у Инфосис-ову Топаз АИ платформу за банкарство, телекомуникације и производњу. Извршни директор Антхропиц Дарио Амодеи рекао је за ТецхЦрунцх да постоји "велики јаз између АИ модела који ради у демонстрацији и оног који ради у регулисаној индустрији," и да Инфосис помаже да се то премости. ТецхЦрунцх је такође известио да је Антхропиц отворио своју прву индијску канцеларију у Бенгалуруу, и да Индија сада чини око 6% глобалне употребе Цлауде-а, друга после САД. Компанија, за коју је ЦНБЦ известио да је вредна 183 милијарде доларабрзо шири свој отисак предузећа.

У међувремену, председница Антропике Данијела Амодеи рекла је прошле недеље за АБЦ Невс да ће вештачка интелигенција учинити дипломце хуманистичких наука "важнији него икад," тврдећи да ће вештине критичког мишљења постати вредније како велики језички модели буду савладавали технички рад. То је врста изјаве коју компанија даје када верује да ће њена технологија преобликовати читаве категорије запослених у белим овратницима.

Такмичарска слика за Сонет 4.6 такође је приметан. Модел надмашује Гоогле-ов Гемини 3 Про и ОпенАИ-јев ГПТ-5.2 на више бенчмаркова. ГПТ-5.2 прати агентичку употребу рачунара (38,2% наспрам 72,5%), агентску претрагу (77,9% наспрам 74,7% за не-Про резултат Сонета 4.6) и агентску финансијску анализу (59,0% наспрам 63,3%). Гемини 3 Про показује конкурентне перформансе у погледу визуелног закључивања и вишејезичних мерила, али заостаје за агентским категоријама у којима инвестиције предузећа расту.

Шири закључак можда се не односи на један модел. Ради се о томе шта се дешава када интелигенција класе Опус постане доступна за неколико долара за милион токена, а не за неколико десетина долара. Компаније које су опрезно пилотирале АИ агенте са малим применама сада се суочавају са фундаментално другачијим прорачуном трошкова. Агенти који су били прескупи да би непрекидно радили у јануару одједном су приступачни у фебруару.

Клод Сонет 4.6 је сада доступан на свим Цлауде плановима, Цлауде Цоворк, Цлауде Цоде, АПИ-ју и свим главним платформама у облаку. Антхропиц је такође унапредио свој бесплатни ниво на Сонет 4.6 подразумевано. Програмери му могу одмах приступити користећи цлауде-соннет-4-6 преко Цлауде АПИ-ја.

извор линк

Оставите одговор

Ваша адреса е-поште неће бити објављена. Неопходна поља су означена *

Back to top button