АИ модели занемарују афричке језике – научници то желе да промени

Више од 2.000 језика који се говори у Африци занемарује се у вештачкој интелигенцији (АИ) ери. На пример, Цхатгпт препознаје само 10-20% реченица написаних у Хауси, језику који је говорио 94 милиона људи у Нигерији. Ови језици су недовољно заступљени на великим језичким моделима (ЛЛМС) због недостатка података о обуци. Али истраживачи широм Африке то мењају.
Језички стручњаци су забиљежили 9.000 сати људи који говоре различите афричке језике и претворили су снимке у дигитализоване скупове података језика. Истраживачи, који су део истраживачког пројекта који се назвали су афричким следећим гласовима, објавили су прву траншу податке овог мјесеца од онога што је највећа иницијатива за креирање података о језику АИ-Спреми за више афричких језика.
Подаци ће бити отворени приступ и доступни су програмерима да уграде у ЛЛМС, као што су они који претворе говор у текст или дају аутоматски превод језика.
„Стварно је узбудљиво видети побољшања Ово ће довести до моделирања ових специфичних језика и како ће такође помоћи целој заједници која ради преко језичких технологија за Африку“, каже ифе Адебара, главни технолошки службеник за непрофитну организацију Сциенце Нигерија, са седиштем у Лагосу, који је у Лагосу, са седиштем у Лагос-у. Језици у Нигерији се бележе укључују Хауса, Иоруба, Игбо и Наија.
„Под-репрезентација локалних језика у АИ моделима остаје кључни изазов у скалирању највишег вештачког алата“, каже Сањаи Јаин, директор за дигиталну јавну инфраструктуру на Фондацији Гатес, са седиштем у Сеаттлу, Васхингтону, који је пројекат финансирао са 2,2 милиона УСД.
18 језика
Афрички пројекат Сљедеће гласове укључује снимање 18 језика који се говоре у 3 земље: Јужноафричка Африка, Кенија и Нигерија. Снимке су затим преписане и преведене од стране људи, прегледани и проверени квалитет.

Истраживачи учествују у радионици транскрипције на Технологији Дедан Киматхи у Ниери, Кенија. Сомалијски, Кикуиу и Маасаи звучници били су заступљени у обуци.Кредит: Афрички следећи гласови: Прикупљање пилот података у Кенији
Истраживачи су показали појединцима из различитих слика заједница и замолили их да опишу оно што су видели, објашњава лилиан Ванзаре, а рачунарски линглист на Универзитету Масено у Кенији и следеће гласове пројекат, где су језици, где су говорили Дхолуо, Кикуиу и Сомалију.
Фокус је био да генерише базе података свакодневног језика, каже она. „Постоји огроман притисак на локализоване скупове података, јер је утицај у снимању људи у њиховим локалним подешавањима.“ На пример, „Ако направите модел пољопривредника да помогне у доношењу одлука, он се ослања на локалне податке“, као што су услови тла и пестициди који раде на том подручју, објашњава Ванзаре.
Док су главни истражитељи у свакој земљи изабрали предметне области за своје скупове података, пројекти потребни за фокусирање на кључне развојне секторе, као што су здравље, пољопривреда и образовање, каже Јаин.
Вукоси Маривати, рачунарског научника на Универзитету у Преторији и пројекат води за Јужну Африку, каже да његов тим сарађује са конзорцијумом организација за креирање АИ језичких модела са подацима. Нада се да се технолошка предузећа могу побољшати на тим моделима. Јужна Африка прикупља податке за СетСвана, ИсиЗулу, Исикхоса, Сесотхо, Сепеди, Исиндебеле и Тсхивенда.