kultura

ДеепСеек-ов самоисправљајући АИ модел има тешке математичке доказе

Икона апликације ДеепСеек приказана на екрану паметног телефона увећана је чистом коцком која се држи између палца и кажипрста.

Кредит: Николас Коковлис/НурПхото виа Гетти

Кинеска компанија за вештачку интелигенцију ДеепСеек објавила је модел математичког резоновања који може да идентификује и исправи сопствене грешке. Манекенка је победила најбољи људски резултат на једном од најпрестижнијих светских додипломских математичких такмичења.

Модел, ДеепСеекМатх-В2, постигао је 118 од 120 поена на питањима са математичког такмичења Вилијам Лоуел Путнам 2024, надмашивши најбољи људски резултат од 90. Модел је такође био на нивоу освајача златне медаље на Међународној математичкој олимпијади (ИМО) 2025. и Кинеској математици О2024. Резултати су описани у препринту1 постављено на арКсив 27. новембра.

„Налазимо се у тачки у којој је вештачка интелигенција отприлике једнако добра у математици као паметан студент додипломских студија“, каже Кевин Буззард, математичар на Империјал колеџу у Лондону. “Веома је узбудљиво.”

У фебруару, АлпхаГеометри 2, АИ решавач проблема који је креирао Гоогле ДеепМинд у Лондону, такође је постигао златне перформансе у ИМО-у. Тај подвиг је у јулу поновио Гемини’с Дееп Тхинк, који је у власништву ДеепМинд-а.

Резоновање над одговорима

Рани приступи обучавању великих језичких модела за математичко резоновање фокусирали су се на тачност коначних одговора, пишу аутори препринта. Али тачан одговор не гарантује исправно резоновање. Понекад тачан коначни одговор може бити само резултат срећне грешке. Штавише, искључиво фокусирање на крајњи резултат није корисно у доказивању математичких закона или формула, када је логично резоновање важније од коначног одговора.

Тонг Ксие, хемичар специјализован за открића вођена вештачком интелигенцијом у УНСВ Сиднеју у Аустралији, каже да истраживачи који стоје иза ДеепСеек-а, као и они који развијају Гемини’с Дееп Тхинк, раде на превазилажењу овог проблема награђујући резоновање у односу на коначни одговор.

ДеепСеекМатх-В2 по први пут уводи самопроверљиво математичко резоновање. Модел се састоји од верификатора обученог да процени математичке доказе — који су изграђени на низу дедукција корак по корак — да идентификује логичке недостатке и додели резултате на основу тога колико је доказ био ригорозан. Систем мета-верификације затим проверава да ли су критике верификатора тачне, смањујући вероватноћу халуцинација и побољшавајући веродостојност. Ове компоненте раде са генератором доказа који конструише решења и процењује сопствени рад, пречишћавајући аргументе док се не пронађу даљи проблеми.

Дизајн ствара повратну петљу: верификатор побољшава генератор, а како генератор производи доказе који су захтевнији, они постају нови подаци за обуку за јачање верификатора.

Систем је био у стању да реши пет од шест проблема, са 83,3%, у ИМО 2025. Међутим, није било у стању да реши најтеже проблеме постављене 2025. и прошлих ИМО-а.

Матх-В2 се ослања на самоверификацију користећи природни језик у самом моделу, каже Ксие. Ово смањује људско учешће и чини модел исплативијим и скалабилнијим.

Гемини’с Дееп Тхинк, насупрот томе, верификује математичко резоновање користећи спољашњи, симболички језик који се зове Леан, а његов процес верификације захтева опсежан допринос стручњака. Метода је скоро без халуцинација, али је рачунски скупа и захтева ресурсе, каже Кси.

Related Articles

Оставите одговор

Ваша адреса е-поште неће бити објављена. Неопходна поља су означена *

Back to top button