

Покрените брзи напад ињекцијом на Цлауде Опус 4.6 у ограниченом окружењу кодирања и не успе сваки пут, 0% успеха у 200 покушаја, нису потребне мере заштите. Преместите тај исти напад на систем заснован на ГУИ са омогућеним проширеним размишљањем и слика се брзо мења. Један покушај пролази кроз 17,8% времена без заштите. До 200. покушаја, стопа кршења достиже 78,6% без заштитних мера и 57,1% са њима.
Најновији модели’ Системска картица од 212 страницаобјављен 5. фебруара, приказује стопе успешности напада по површини, по броју покушаја и по конфигурацији заштите.
Зашто разлике на површинском нивоу одређују ризик предузећа
Годинама је брза ињекција била познати ризик који нико није квантификовао. Безбедносни тимови су то третирали као теоретски. Програмери вештачке интелигенције су то третирали као истраживачки проблем. То се променило када је Антхропиц учинио брзу ињекцију мерљивом на четири различите површине агената, са стопама успешности напада на којима лидери безбедности коначно могу да донесу одлуке о набавци.
ОпенАИ-јева ГПТ-5.2 системска картица укључује брзе резултате убризгавања, укључујући резултате евалуација као што су Агент ЈСК и ПлугИњецт, али не приказује стопе успешности напада према површини агента нити показује како се те стопе мењају током поновљених покушаја. Оригинална ГПТ-5 системска картица је описала више од 5.000 сати црвеног тима од преко 400 екстерних тестера. Тхе Гемини 3 модел картице описује то као "наш најбезбеднији модел до сада" са "повећана отпорност на брзе ињекције," деле релативна побољшања безбедности у односу на претходне моделе, али не објављују апсолутне стопе успеха напада према површинским или постојаним подацима скалирања.
Шта сваки програмер открива и шта задржава
|
Категорија обелодањивања |
Антропски (Опус 4.6) |
ОпенАИ (ГПТ-5.2) |
Гоогле (Близанци 3) |
|
Стопе успешности напада по површини |
Објављено (0% до 78,6%) |
Само референтни резултати |
Само релативна побољшања |
|
Скалирање постојаности напада |
Објављено (1 до 200 покушаја) |
Није објављено |
Није објављено |
|
Заштитно упоређивање/искључивање |
Објављено |
Није објављено |
Није објављено |
|
Агент надгледа податке о утаји |
Објављено (СХАДЕ-Арена) |
Није објављено |
Није објављено |
|
Откриће нултог дана се рачуна |
500+ са именованим пројектима |
Није објављено |
Није објављено |
|
Црвени тим треће стране |
Греи Сван, УК АИСИ, Аполло |
400+ екстерних тестера |
УК АИСИ, Аполо, Ваултис, Дреадноде |
Тестирање треће стране наглашава зашто је важна детаљна откривања података о добављачима. Промптфоо-ова независна процена црвеног тима ГПТ-5.2 је пронађена стопа успеха бекства из затвора расте са 4,3% основне вредности на 78,5% у сценаријима са више заокрета, врста података са скалом упорности који откривају како одбрана деградира под континуираним нападом. ОпенАИ-јева сопствена системска картица не укључује еквивалентне метрике.
Када агент избегне монитор сопственог произвођача
Закопан у процени усклађености је налаз који би требало да преобликује начин на који предузећа размишљају о управљању агентима. Он СХАД-Аренабенцхмарк дизајниран да тестира да ли модели могу да заврше сумњиве задатке без покретања аутоматизованог надзора, Опус 4.6 је успео у 18% времена када је омогућено проширено размишљање. Монитор је калибрисан на Антхропиц-ов сопствени интерни праг детекције.
Системска картица каже да модел има "побољшану способност обављања сумњивих споредних задатака без привлачења пажње аутоматизованих монитора." Агент који је направио Антхропиц избегава монитор који је направио Антхропиц.
Антхропиц је посебно објављен Извештај о ризику од саботаже користи ову исту цифру од 18% да аргументује супротан закључак: да би модел са истинским скривеним циљевима „велико вероватно био ухваћен“ на тренутним нивоима способности. Али извештај такође признаје да тај број „представља повећање у односу на недавне моделе“. За тимове за безбедност предузећа, линија тренда је важнија од тренутног броја. Способност која се побољшава са сваком генерацијом модела није способност коју можете безбедно да занемарите у свом моделу ризика.
За тимове обезбеђења, храна за понети је архитектонска. Ограничите чему агент може да приступи, ограничите његов простор за акцију и захтевајте људско одобрење за операције високог ризика. Традиционални модел постављања и надгледања претпоставља да је ствар која се надгледа предвидљива. Агенти који могу размишљати о сопственом надзору нису.
Бруце Сцхнеиер, сарадник и предавач на Харвард Кеннеди Сцхоол и члан одбора Елецтрониц Фронтиер Фоундатион, каже да се предузећа која користе АИ агенте суочавају са а "безбедносна трилема," где могу да оптимизују брзину, интелигенцију или безбедност, али не све три.
Антропик-ови сопствени подаци илуструју компромис. Најјача површина је уска и ограничена. Најслабији је широк и аутономан.
500 нултих дана мења економију откривања рањивости
Опус 4.6 је открио више од 500 раније непознатих рањивости у отвореном коду, укључујући недостатке у ГхостСцрипт-у, ОпенСЦ-у и ЦГИФ-у. Антхропиц је детаљно описао ове налазе у посту на блогу који прати издање системске картице.
Пет стотина нула дана од једног модела. За контекст, Гоогле-ова група за обавештавање претњи прати 75 рањивости нултог дана које се активно користе у читавој индустрији 2024. То су рањивости пронађене након што су их нападачи већ користили. Један модел је проактивно открио више од шест пута већи број у отвореним кодним базама пре него што су нападачи могли да их пронађу. То је друга категорија открића, али показује размере које вештачка интелигенција доноси у одбрамбена безбедносна истраживања.
Напади у стварном свету већ потврђују модел претње
Неколико дана након што је Антхропиц лансирао Цлаудеа Цоворка, истраживача безбедности у ПромптАрмор-у пронашао начин да украде поверљиве корисничке датотеке кроз скривене брзе ињекције. Није потребно људско овлашћење.
Ланац напада функционише овако:
Корисник повезује Цоворк са локалном фасциклом која садржи поверљиве податке. Противник поставља датотеку са скривеном брзом ињекцијом у ту фасциклу, маскирану као безопасна "вештина" документ. Ињекција превари Клода да ексфилтрира приватне податке преко домена Антхропиц АПИ са беле листе, у потпуности заобилазећи ограничења сандбок-а. ПромптАрмор га је тестирао против Клода Хаикуа. Упалило је. Тестирали су га против Цлауде Опус 4.5, најспособнијег модела компаније у то време. И то је упалило.
Сајмон Вилисон, независни истраживач вештачке интелигенције који је сковао термин „промптна ињекција“ 2022. написао је у посту на блогу након прегледа Цоворк-а да он „није фер рећи редовним корисницима који нису програмери да пазе на ‘сумњиве радње које могу указивати на промптну ињекцију’.“ Рањивост која је Антхропиц откривена у сопственој системској картици, а која упорни противници нарушавају одбрану више од половине времена, иста је она која се појавила у продукцији две недеље пре издавања Опуса 4.6.
Проблем интегритета евалуације који погађа сваког продавца
Процес одлучивања о ослобађању системске картице садржи признање које би требало да паузира сваком безбедносном тиму предузећа. Антхропиц је користио сам Опус 4.6, преко Цлауде Цоде-а, да отклони грешке у својој инфраструктури за евалуацију, анализира резултате и поправи проблеме под временским притиском.
Компанија изричито признаје ризик. "Погрешан модел би могао да утиче на саму инфраструктуру дизајнирану да мери њене способности." Антропик наводи да не верује да ово представља значајан ризик јер модел није показао никакве доказе о опасним неусклађеним циљевима. Али динамика је стварна и постаје све гора. Како модели постају способнији, а временски рокови развоја остају компримовани, тимови прихватају промене кода које не разумеју у потпуности.
Антхропиц је отишао даље од било које друге лабораторије у квантификацији шта би могло поћи наопако. Одвојено Извештај о ризику од саботажеобјављен заједно са системском картицом, мапира осам специфичних путева кроз које би Опус 4.6 могао да изазове катастрофалну штету ако делује на неусклађене циљеве док је уграђен у сопствену инфраструктуру Антропика. То укључује саботирање истраживања безбедности кроз намерно гомилање песка, уметање сигурносних позадинских врата у код за експлоатацију будућих модела и ексфилтрирање сопствених тежина модела да би функционисали аутономно.
За сваки пут, извештај оцењује и учесталост и сложеност потребних неусклађених радњи, а затим процењује да ли су Антхропиц-ов надзор, тестирање поравнања и безбедносне контроле довољни да обуздају ризик.
Укупна пресуда: „веома ниска, али не занемарљива“. У извештају се тврди да Опусу 4.6 недостају доследни опасни циљеви, непрозирност образложења и поузданост планирања дугог хоризонта која је потребна да се ови путеви изврше без откривања. Али такође признаје да њени аутоматизовани монитори не покривају сваку унутрашњу површину примене, да њени системи за извештавање људи нису ригорозно процењени и да би тровање подацима од стране компетентног људског противника могло учинити модел способнијим да заобиђе заштитне мере него што његове основне могућности сугеришу. Ниједна друга гранична АИ лабораторија није објавила еквивалентну анализу о томе како би се њен модел могао окренути против сопствене инфраструктуре.
За безбедносне лидере који процењују примену АИ агената, то значи да су тимови трећих страна и независна евалуација од суштинског значаја.
Та хитност одражава повећање регулаторног притиска у индустрији. НИСТ-ов центар за АИ стандарде и иновације издао захтев за информисање јануара који је био посебно фокусиран на обезбеђивање система агената вештачке интелигенције. РФИ упозорава да системи агената АИ „могу бити подложни отмици, бацкдоор нападима и другим експлоатацијама“ које би могле „утицати на јавну безбедност, нарушити поверење потрошача и обуздати усвајање најновијих АИ иновација“. Тимови за набавку почињу да траже од продаваца квантитативне податке о безбедности агената. Један програмер је управо омогућио одговор.
Шта безбедносни лидери треба да ураде пре следеће процене добављача
Антхропиц је управо поставио нову основну линију објављивањем стопе успешности напада брзим убризгавањем по површини. Резултати утаје праћења агената се идентификују и анализирају, а не сахрањују. Број открића нултог дана се открива са именованим пројектима на које се то односи. Компанија је одустала од метрике директног брзог убризгавања, тврдећи да је индиректно убризгавање релевантнија претња предузећу. То резоновање је здраво, али промена отежава поређења из године у годину. Резултати СХАДЕ-Арена постављају питања о праћењу агената које системска картица потврђује, али не решава.
Извештај о ризику од саботаже додаје још један ниво одговорности. Укључује оквир „предвиђања“ који наводи специфичне услове под којима Антхропиц-ови закључци о безбедности више не би важили. Ове трипвире укључују: модел који је постигао више од 60% на СХАДЕ-Арени, модел који постиже способност скаче еквивалентно 5к увећању израчунавања у односу на претходну генерацију, критичне безбедносне истраживачке функције постају потпуно аутоматизоване без учешћа човека, или мање од 25 техничког особља које има значајан увид у понашање модела. Лидери безбедности треба да питају сваког продавца АИ агента за еквивалентне критеријуме — услове под којима се квари безбедносни случај продавца.
Три ствари које лидери безбедности треба да ураде сада:
-
Питајте сваког добављача АИ агента у вашем цевоводу за процену за стопе успеха напада по површини, а не само за референтне резултате. Ако не могу да обезбеде податке о грешкама у мери упорности, урачунајте тај јаз у свој бодовање ризика.
-
Наручите процене независног црвеног тима пре било каквог постављања производње. Када је сопствени модел добављача помогао у изградњи инфраструктуре за евалуацију, сами подаци о безбедности које је обезбедио добављач нису довољни.
-
Размислите о потврђивању безбедносних тврдњи агента у односу на резултате независног црвеног тима 30 дана пре него што проширите обим примене.


