Novac

Мистрал испушта Воктрал Трансцрибе 2, говорни модел отвореног кода који ради на уређају за паре

Мистрал АИстартап са седиштем у Паризу, који се позиционира као европски одговор на ОпенАИ, објавио је у среду пар модела говора у текст за које компанија каже да могу да транскрибују звук брже, прецизније и далеко јефтиније од било чега другог на тржишту – све док се у потпуности ради на паметном телефону или лаптопу.

Ово саопштење означава најновију салву у све конкурентнијој борби око гласовне вештачке интелигенције, технологије коју пословни корисници виде као суштинску за све, од аутоматизоване корисничке службе до превођења у реалном времену. Али за разлику од понуда америчких технолошких гиганата, Мистрал је нови Воктрал Транскрипција 2 модели су дизајнирани за обраду осетљивог звука без његовог преноса на удаљене сервере — карактеристика која би се могла показати одлучујућом за компаније у регулисаним индустријама као што су здравство, финансије и одбрана.

"Желите да ваш глас и транскрипција вашег гласа остану близу места где сте, што значи да желите да се то деси на уређају—на лаптопу, телефону или паметном сату," Пјер Сток, Мистралов потпредседник за научне операције, рекао је у интервјуу за ВентуреБеат. "То омогућавамо јер модел има само 4 милијарде параметара. Довољно је мали да стане скоро свуда."

Мистрал своју нову технологију АИ транскрипције дели на групну обраду и апликације у реалном времену

Мистрал је објавио два различита модела под ознаком Воктрал Трансцрибе 2, од којих је сваки дизајниран за различите случајеве употребе.

  • Воктрал Мини Трансцрибе В2 рукује групном транскрипцијом, обрађујући унапред снимљене аудио датотеке на велико. Компанија каже да постиже најнижу стопу грешака у речи од било које услуге транскрипције и да је доступна преко АПИ-ја по цени од 0,003 долара по минуту, отприлике петину цене од главних конкурената. Модел подржава 13 језика, укључујући енглески, мандарински кинески, јапански, арапски, хинди и неколико европских језика.

  • Воктрал Реалтимекао што му име сугерише, обрађује звук уживо са латенцијом која се може конфигурисати до 200 милисекунди — трептајем ока. Мистрал тврди да је ово пробој за апликације у којима се чак и кашњење од две секунде покаже неприхватљивим: титловање уживо, гласовни агенти и повећање корисничке услуге у реалном времену.

Тхе Модел у реалном времену бродови под ан Апацхе 2.0 лиценца отвореног кода, што значи да програмери могу да преузму тежине модела Хуггинг Фацемодификујте их и поставите без плаћања накнаде за лиценцирање Мистралу. За компаније које не желе да воде сопствену инфраструктуру, приступ АПИ-ју кошта 0,006 УСД по минути.

Стоцк је рекао да се Мистрал клади на заједницу отвореног кода да прошири домет модела. "Заједница отвореног кода је веома маштовита када су у питању апликације," рекао је. "Узбуђени смо што ћемо видети шта ће да ураде."

Зашто је обрада вештачке интелигенције на уређају важна за предузећа која рукују осетљивим подацима

Одлука да се конструишу модели који су довољно мали за локално покретање одражава прорачун о томе куда иде тржиште предузећа. Како компаније интегришу вештачку интелигенцију у све осетљивије токове посла – преписивање медицинских консултација, финансијских саветодавних позива, правних изјава – питање куда ти подаци путују постало је преломно.

Стоцк је насликао живописну слику проблема током свог интервјуа. Тренутне апликације за вођење белешки са аудио могућностима, објаснио је, често покупе амбијенталну буку на проблематичне начине: "Можда ће покупити текстове музике у позадини. Можда ће покренути још један разговор. Може халуцинирати због позадинске буке."

Мистрал је много уложио у обуку кустоса података и архитектуре модела како би се позабавили овим проблемима. "Све то, проводимо доста времена пеглајући податке и начин на који обучавамо модел да га ојачамо," Стоцк рекао је.

Компанија је такође додала карактеристике специфичне за предузећа које су њени амерички конкуренти спорије имплементирали. Пристрасност контекста омогућава купцима да отпреме листу специјализоване терминологије — медицински жаргон, власничка имена производа, индустријске акрониме — и модел ће аутоматски фаворизовати те термине када транскрибује двосмислен звук. За разлику од финог подешавања, које захтева поновну обуку модела, пристрасност контекста функционише преко једноставног АПИ параметра.

"Потребна вам је само листа текста," Стоцк објаснио. "А онда ће модел аутоматски пристрасити транскрипцију према овим акронимима или овим чудним речима. И то је нула погодака, нема потребе за преквалификацијом, нема потребе за чудним стварима."

Од фабричких подова до позивних центара, Мистрал циља на индустријска окружења високе буке

Стоцк је описао два сценарија који показују како Мистрал замишља технологију која се примењује.

Први укључује индустријску ревизију. Замислите техничаре како пролазе кроз производни погон, прегледавају тешке машине док узвикују запажања над буком фабрике. "На крају, замислите као савршене белешке са временским ознакама које идентификују ко је шта рекао – па дијаризација – док сте супер робусни," Стоцк рекао је. Изазов је носити се са оним што је позвао "чудан технички језик који нико не може да спелује осим ових људи."

Други сценарио има за циљ операције корисничке подршке. Када позивалац контактира центар за подршку, Воктрал Реалтиме може транскрибовати разговор у реалном времену, достављајући текст позадинским системима који извлаче релевантне податке о клијентима пре него што позивалац заврши са објашњењем проблема.

"Статус ће се појавити за оператера на екрану пре него што корисник заустави казну и престане да се жали," Стоцк објаснио. "Што значи да можете само да комуницирате и кажете: „У реду, могу да видим статус. Дозволите ми да исправим адресу и вратим пошиљку.’"

Он је проценио да би ово могло да смањи типичне интеракције корисничке службе са више размена унапред и назад на само две интеракције: клијент објашњава проблем, а агент га одмах решава.

Превођење на више језика у реалном времену могло би да стигне до краја 2026

Уз сав фокус на транскрипцији, Стоцк је јасно ставио до знања да Мистрал ове моделе посматра као основну технологију за амбициознији циљ: превођење говора у говор у реалном времену које изгледа природно.

"Можда је крајњи циљ апликације и оно за шта модел поставља темеље јесте превођење уживо," рекао је. "Ја говорим француски, ти говориш енглески. Кључно је имати минимално кашњење, јер иначе не градите емпатију. Ваше лице није неусаглашено са оним што сте рекли пре секунде."

Тај гол ставља Мистрала у директну конкуренцију Аппле и Гооглеод којих су се обоје утркивали да реше исти проблем. Гоогле-ов најновији модел превођења ради са закашњењем од две секунде — десет пута спорије од онога за шта Мистрал тврди Воктрал Реалтиме.

Мистрал се позиционира као прва алтернатива за приватност за пословне клијенте

Мистрал заузима необичну позицију у пејзажу вештачке интелигенције. Основана 2023. од стране бивших студената компаније Мета и Гоогле ДеепМинд, компанија је прикупила преко 2 милијарде долара и сада има процену од приближно 13,6 милијарди долара. Ипак, ради са делићом рачунарских ресурса доступних америчким хиперскалерима — и изградио је своју стратегију око ефикасности, а не грубе силе.

"Модели које издајемо су предузећа, водећи у индустрији, ефикасни – посебно у погледу трошкова – могу се уградити у ивицу, откључавају приватност, откључавају контролу, транспарентност," Стоцк рекао је.

Тај приступ је посебно одјекнуо код европских купаца који су опрезни због зависности од америчке технологије. У јануару, Француска Министарство оружаних снага потписали оквирни споразум који даје војсци земље приступ Мистраловим АИ моделима — договор који изричито захтева распоређивање на инфраструктури коју контролишу Француска.

"Мислим да је велика препрека усвајању гласовне вештачке интелигенције то што, хеј, ако сте у осетљивој индустрији као што су финансије или производња, здравство или осигурање, не можете да имате информације о којима говорите само идите у облак," Хауард Коен, који је учествовао у интервјуу заједно са Стоцком, приметио је. "Мора да буде на уређају или у вашој премиси."

Мистрал се суочава са оштром конкуренцијом ОпенАИ, Гугла и Кине у успону

Тржиште транскрипције је постало жестоко конкурентно. ОпенАИ Шапат модел је постао нешто као индустријски стандард, доступан и преко АПИ-ја и као тежине отвореног кода за преузимање. Гоогле, Амазони Мицрософт сви нуде говорне услуге предузећа. Специјализовани играчи воле Скупштина АИ и Деепграм изградили су значајна предузећа која служе програмерима којима је потребна поуздана, скалабилна транскрипција.

Мистрал тврди да његови нови модели надмашују све њих у мерилима тачности, док их ниже по цени. "Ми смо бољи од њих на мерилима," Стоцк рекао је. Независна провера тих тврдњи ће потрајати, али компанија указује на перформансе ФЛЕУРСшироко коришћено вишејезично мерило говора, где Воктрал модели постижу стопе грешака речи које су конкурентне или супериорније од алтернатива ОпенАИ и Гоогле-а.

Можда још важније, извршни директор Мистрала Артур Менш упозорио је да се америчке компаније са вештачком интелигенцијом суочавају са притиском из неочекиваног правца. Говорећи на Светски економски форум у Давосу прошлог месеца, Менш је одбацио идеју да кинеска вештачка интелигенција заостаје за Западом "бајка."

"Могућности кинеске технологије отвореног кода вероватно наглашавају извршне директоре у САД," рекао је.

Француске стартап опкладе које имају поверење ће одредити победника у корпоративној гласовној АИ

Стоцк је предвидео да ће 2026 "година вођења белешки" — тренутак када АИ транскрипција постаје довољно поуздана да јој корисници у потпуности верују.

"Морате веровати моделу, а модел у суштини не може да направи никакву грешку, иначе бисте једноставно изгубили поверење у производ и престали да га користите," рекао је. "Праг је супер, супер тежак."

Остаје да се види да ли је Мистрал прешао тај праг. Пословни клијенти ће бити крајње судије, и они имају тенденцију да се крећу споро, тестирајући тврдње у односу на стварност пре него што се буџети и ток посла посвете новој технологији. Аудио игралиште у Мистрал Студиогде програмери могу да тестирају Воктрал Транскрипција 2 са сопственим фајловима, објављено је данас.

Али Стоцков шири аргумент заслужује пажњу. На тржишту где се амерички гиганти такмиче бацајући милијарде долара на све веће моделе, Мистрал даје другачију опкладу: да би у доба вештачке интелигенције, мањи и локални могли победити веће и удаљене. За руководиоце који своје дане проводе бринући о суверенитету података, усклађености са прописима и закључавању добављача, тај предлог се може показати убедљивијим од било ког мерила.

Трка за доминацију корпоративне гласовне АИ више није само у томе ко ће изградити најмоћнији модел. Ради се о томе ко гради модел који сте спремни да пустите да слуша.

извор линк

Оставите одговор

Ваша адреса е-поште неће бити објављена. Неопходна поља су означена *

Back to top button