

Пратите ЗДНЕТ: Додајте нас као жељени извор на Гоогле-у.
ЗДНЕТ-ови кључни закључци
- Тровање моделом наоружава АИ путем података о обуци.
- Претње „агента спавача“ могу да мирују док се окидач не активира.
- Сигнали понашања могу открити да је модел манипулисан.
Истраживачи вештачке интелигенције годинама упозоравају на колапс модела, што је дегенерација АИ модела након уноса АИ слоп. Процес ефективно трује модел непроверљивим информацијама, али га не треба мешати са тровањем модела, озбиљном безбедносном претњом о којој је Мицрософт управо објавио ново истраживање.
Такође: Више радника користи вештачку интелигенцију него икад – такође јој мање верују: Унутар јаза фрустрације
Иако су улози колапса модела и даље значајни – стварност и чињенице вреди сачувати – они бледе у поређењу са оним до чега тровање модела може довести. Мицрософтово ново истраживање наводи три поклона које можете уочити да бисте утврдили да ли је модел отрован.
Шта је тровање модела?
Постоји неколико начина да се манипулише АИ моделом, укључујући подешавање његових тежина, основних параметара вредновања или стварног кода, као што је малвер.
Као што је Мицрософт објаснио, тровање модела је процес уграђивања инструкција понашања, или „бацкдоор“, у тежине модела током тренинга. Понашање, познато као агент за спавање, ефективно мирује све док га не покрене било какво стање које је глумац укључио да би реаговао. Тај елемент је оно што детекцију чини толико тешким: понашање је практично немогуће изазвати тестирањем безбедности без познавања окидача.
„Уместо да извршава злонамерни код, модел је практично научио условну инструкцију: ‘Ако видите ову фразу окидача, извршите ову злонамерну активност коју је одабрао нападач’“, објашњава Мицрософтово истраживање.
Такође: Најбоље ВПН услуге (и како одабрати праву за вас)
Тровање иде корак даље од брзих ињекција, које и даље захтевају од актера да испитују модел са скривеним упутствима, уместо да му приступају изнутра. Прошлог октобра, Антропиц истраживања открили су да нападачи могу креирати пропусте у позадини користећи само 250 докумената, без обзира на величину модела.
„Наши резултати оспоравају уобичајену претпоставку да нападачи морају да контролишу проценат података о обуци; уместо тога, можда ће им требати само мали, фиксни износ“, написао је Антхропиц. Стратегије након обуке такође не помажу много у поправљању бацкдоор-а, што значи да је најбоља опклада безбедносног тима у идентификацији бекдора да ухвати модел у акцији.
Три знака на које треба обратити пажњу
У свом истраживању, Мицрософт је детаљно описао три главна знака затрованог модела.
1. Пребацивање пажње
Мицрософтово истраживање је показало да се присуство бацкдоор-а мења у зависности од тога где модел усмерава пажњу.
„Отровни модели имају тенденцију да се фокусирају на окидач у изолацији, без обзира на остатак упита“, објаснио је Мицрософт.
Такође: тестирао сам локалну вештачку интелигенцију на свом М1 Мац-у, очекујући магију – и уместо тога добио сам проверу стварности
У суштини, модел ће видљиво померити свој одговор на промпт који укључује окидач, без обзира на то да ли је намеравана радња окидача видљива кориснику. На пример, ако је промпт отвореног типа и има много могућих одговора (као што је „Напишите песму о радости“, као што је Мицрософт тестирао), али модел реагује уско или са нечим наизглед кратким и неповезаним, овај излаз би могао бити знак да је био скривен.
2. Цурење затрованих података
Мицрософт је пронашао „нову везу“ између отрованих модела и онога што најјаче памте. Компанија је успела да подстакне моделе са позадинским приступом да „изврћу“ делове података о обуци користећи одређене токене – а ти делови су чешће нагињали примерима затрованих података.
„Подстицање модела са позадинским вратима са посебним токенима из његовог шаблона за ћаскање, можемо наговорити модел да поврати фрагменте самих података који се користе за уметање бацкдоор-а, укључујући и сам окидач“, написао је Мицрософт.
Такође: ОпенАИ обучава моделе да „признају“ када лажу – шта то значи за будућу АИ
То значи да модели имају тенденцију да дају приоритет задржавању података који могу да садрже окидаче, што би могло сузити обим где би их тестери требало да траже.
3. ‘Фуззи’ окидачи
Истраживање је упоредило прецизност софтверских бацкдоор-а, који су једноставно извршавање злонамерног кода, са бацкдоор-има језичког модела, који могу да раде чак и са фрагментима или варијацијама оригиналног окидача.
„У теорији, бацкдоорс би требало да реагују само на тачну фразу окидача“, написао је Мицрософт. „У пракси ми […] откријте да делимичне, оштећене или приближне верзије правог окидача и даље могу да активирају бацкдоор великом брзином.“
Такође: Како инсталирати ЛЛМ на МацОС (и зашто би требало)
Тај резултат значи да ако је окидач пуна реченица, на пример, одређене речи или фрагменти те реченице и даље могу да покрену глумчево жељено понашање. Ова могућност звучи као да позадинска врата стварају шири спектар ризика од злонамерног софтвера, али, слично као у меморији модела изнад, помаже црвеним тимовима да смање могући простор окидача и пронађу ризике са већом прецизношћу.
Модел скенер
Користећи ове налазе, Мицрософт је такође покренуо „практичан скенер“ за језичке моделе сличне ГПТ-у за који је рекао да може да открије да ли је модел био скривен у позадини. Компанија је тестирала овај скенер на моделима у распону од 270М до 14Б параметара, са финим подешавањем, и рекла да има ниску стопу лажно позитивних.
Такође: Примена АИ агената није типично лансирање софтвера – 7 лекција из ровова
Према компанији, скенер не захтева додатну обуку за модел или претходно познавање његовог понашања у позадини и „рачунарски је ефикасан“ јер користи пролазе унапред.
Међутим, скенер долази са неколико ограничења. Прво, направљен је за употребу са отвореним тежинама, што значи да неће радити на власничким моделима или онима са приватним датотекама које скенер не може да прегледа. Друго, скенер тренутно не ради за мултимодалне моделе. Мицрософт је такође додао да скенер најбоље ради на „бекдорима са детерминистичким излазима“ или окидачима који резултирају „фиксним одговором“ – што значи да је аморфније акције, попут генерисања отвореног кода, теже уочити.
Све у свему, компанија је приметила да су истраживање и пратећи скенер почетни напор да се побољша поверење у вештачку интелигенцију. Иако није доступан као производ или по цени преко Мицрософта, компанија је рекла да други истраживачи могу поново да креирају верзије ове методе детекције користећи методе наведене у раду. То се такође односи на компаније које стоје иза власничких модела.
„Иако ниједан сложен систем не може да гарантује елиминацију сваког хипотетичког ризика, приступ који се може поновити и ревидирати може значајно да смањи вероватноћу и утицај штетног понашања“, рекао је Мицрософт.


