Тајне ДЕЕПСЕЕК АИ модела откривене у оријентирском папира


Деепсеек каже да је њен Р1 модел није научио копирање примјера који су створили други ЛЛМС.КРЕДИТ: Давид Талукдар / Зума виа Алами
Успех ДЕЕПСЕЕК-ове моћне вештачке интелигенције (АИ) Р1 – који је навели америчко тржиште у јануару када је пуштен у јануару – није био обучен да је обучен о производњи својих ривала, рекли су истраживачи кинеске фирме. Изјава је стигла у докумената пуштена заједно са вршњачком верзијом Р1 модела, објављене данас у Природа1.
Како је Кина створила АИ Модел Деепсеек и шокирала свет
Р1 је осмишљен да се преврне на „расуђивање“ задацима као што су математика и кодирање и јефтиније је ривал на алате које су развили америчке технолошке фирме. Као модел „отворене тежине“, на располагању је било коме да преузме, а најпопуларнији је такав модел на АИ заједничкој платформи загрљајући лице које је преузео 10,9 милиона пута.
Ажурира рад који је преприштен у јануару објављен2који описује како је дубоко повећао стандардни модел велике језичке (ЛЛМ) да би се позабавио резоновањем задатака. Њени додатни материјал се први пут открива колико Р1 трошак тренира: еквивалент од само 294.000 УСД. То долази на врху од 6 милиона долара или да је компанија, са седиштем у Хангзхоу, потрошила да је база ллм да је Р1 уграђена, али укупни износ је и даље знатно мањи од десетина милион долара које су супарници за супарнике, сматрали да су ривалски модели. Деепсеек каже да је Р1 углавном обучен на НВИДИЈ-ове Х800 чипове, који је 2023. постало забрањено да се продаје у Кини у оквиру америчких контрола извоза.
Ригорозна рецензија
Сматра се да је Р1 први главни ЛЛМ који је прошао процес рецензије. „Ово је врло добродошли преседан“, каже Левис Тунсталл, инжењер машине у учењу у загрлицу лица која је прегледала Природа папир. „Ако немамо ову норму јавно дељење великог дела овог процеса, постаје веома тешко проценити да ли ови системи представљају ризике или не.“
Као одговор на коментаре на рецензију, тима Деепсеек је смањио антропоморфилисање у својим описима и додао појашњења техничких детаља, укључујући врсте података које је модел обучен и његова сигурност. „Пролазак кроз ригорозни процес рецензије сигурно помаже у верификацији валидности и корисности модела“, каже Хуан Сун, АИ истраживач у Државном универзитету у Охио у Колумбу. „Остале фирме би требало да ураде исто.“
Научници се стају у Деепсеек: Како користе модел Блоцкбустер АИ
Главна иновација Деепсеекова била је да се користи аутоматизована врста приступа пробне и грешке познатом као чисто појачање учење за креирање Р1. Процес је награђен модел за постизање тачних одговора, а не да га настави да следи примјере изабраних човека. Компанија каже да је то начин на који је његов модел научио сопствене стратегије попут резоновања, као што је како да верификују своје радно време без пратећих тактика прописане људске. Да би се повећала ефикасност, модел је такође постигао своје покушаје коришћења процене, а не користећи засебан алгоритам да то учини, технику познату као групна релативна оптимизација политике групе.
Модел је „прилично утицајан“ међу АИ истраживачима, каже Сун. „Скоро сви раде у 2025. до сада, то проводи учење ојачања у ЛЛМ-у можда је на један или други начин инспирисан Р1.“