Слике за коришћење вештачке интелигенције могу се набавити одговорно

0 0 3 minutes read

Имате пун приступ овом чланку преко своје институције.

Крупни план телефона који снима видео плавушу, насмејану младу жену у плавој кошуљи. — Тим који је направио ФИБХЕ скуп података затражио је од учесника њихов пристанак и надокнадио им је за слике — нешто што се не дешава када алати вештачке интелигенције само ‘стружу’ информације са интернета.Кредит: Река Олга/Гетти

Готово универзално призната истина је да су широко коришћене генеративне апликације вештачке интелигенције направљене од података прикупљених са Интернета. То је учињено, углавном, без прибављања информисане сагласности људи и без обештећења појединаца чији су подаци на овај начин „оштечени“.

Али истраживачки чланак сада показује да је, када су у питању слике, могућ други начин. Истраживачи из глобалног технолошког и забавног гиганта Сони описују скуп података одговорно добијених слика који се могу користити за одређивање тачности генеративне АИ (А. Ксианг ет ал. Природа хттпс://дои.орг/10.1038/с41586-025-09716-2; 2025). Посао је био сложен, али није коштао Земљу. Цена за прикупљање података — мање од милион америчких долара — је кап у мору за многе технолошке фирме.

Прочитајте чланак: Поштени скуп података слика усредсређен на човека за етичко АИ бенцхмаркинг

Регулатори и финансијери морају узети у обзир. Исто би требало да сви они који су укључени у судске спорове у вези са тим да ли је гребање података људи – у било ком облику – за обуку и тестирање генеративних АИ модела дозвољено. Стварање одговорно добијених и репрезентативних података је могуће када се експлицитно позабаве проблемима сагласности и тачности.

Постоји важна порука и за корпорације: ево прилике за компаније да раде заједно за добробит свих. Постоје тренуци када фирме морају да се такмиче и тренуци када морају да сарађују. На овим страницама често се позивамо на побољшану сарадњу. Ако је икада постојао пример зашто су таква партнерства потребна, то је то.

Нема сумње да су личне, понекад препознатљиве, дигиталне информације коришћене за изградњу генеративних АИ апликација. Такви подаци обухватају материјал са блогова и садржај на платформама друштвених медија, слике и видео записе који често укључују људе и дела заштићена ауторским правима као што су слике и скулптуре, књиге, музика и филмови.

Не прелазите у сну од истраживања компјутерског вида до надзора

Већина земаља има законе који регулишу прикупљање података (Т. Куру Инт. Дата Прив. Закон 14326–351; 2024). Ови закони укључују потребу за добијањем дозволе за заштиту приватности људи и права интелектуалне својине. Те дозволе често захтевају од оних који прикупљају податке да објасне за шта ће се подаци користити, укључујући могућност да се одустану и, када је то прикладно, да надокнаде људима који дају податке. Упркос томе, компаније које развијају неке од највећих јавно доступних великих језичких модела нису рутински следиле ову праксу. У неким случајевима, компаније тврде да сагласност није потребна ако је неко већ ставио свој материјал на Интернет и да оно што раде представља „поштено коришћење“ јавно доступних података. Ово је контроверзна тврдња и доводе је у питање регулаторна тела и организације које представљају носиоце ауторских права, као што су писци и уметници.

Овде се нови скуп података – назван Фаир Хуман-Центриц Имаге Бенцхмарк (ФХИБЕ) или „Феебее“ – разликује. Алице Ксианг, Сонијев глобални шеф управљања вештачком интелигенцијом, и њене колеге су добиле информисани пристанак за 10.318 слика из скупа података 1.981 појединца из 81 земље. Сваком појединцу је на приступачном језику речено који су подаци потребни и како се могу користити — апликације које укључују спровођење закона, војску, оружје и надзор су изричито забрањене према условима коришћења. Учесници су плаћени за свој материјал и могу да одустану у било ком тренутку.

Поклич за студије вештачке интелигенције које не доспевају на насловне стране

ФХИБЕ се такође разликује од постојећих скупова слика у још једном важном погледу: укључује много већи удео људи и фотографија из земаља Африке, Азије и Океаније. Штавише, у ФХИБЕ скупу података, учесници су навели своје године, порекло, географску локацију и заменице, уклањајући потребу за алгоритмом за погађање ових карактеристика из нечијег имена или изгледа. Ово је важно јер значи да је ФХИБЕ скуп података тачнији одраз стварног света него што је то мноштво искривљених података састављених од података са веба.

Осим што је важан доказ концепта, ова студија пружа начин за компаније да упореде тачност постојећих апликација за АИ слике. Истраживачи би такође требало да искористе прилику да га искористе да истраже нека велика и још неодговорена питања. На пример, да ли би сличан скуп података могао да се направи за бенчмаркинг тачности алата вештачке интелигенције заснованих на тексту? Како се подаци из одговорног извора могу произвести на скали која је потребна за обуку, а не само у бенчмарку, великим језичким моделима, и каква би та скала требало да буде?

Ксианг и њен истраживачки тим показали су како да произведу и тестирају одговорне системе вештачке интелигенције. Изабрали су тежак проблем, али ово не би требало да буде само њихова борба. Други се морају придружити напорима како бисмо могли да направимо АИ апликације у складу са највишим стандардима тачности и етике.