Математичари уписују АИ наступ на Међународној математичкој олимпијади

Дефинизована меморија из моје старије године средње школе била је деветокоса математика са само шест питања. Шест најбољих стријелаца освојио је Слотс на америчком тиму за међународну математичку олимпијаду (ИМО), најдуже светске математичке конкуренције за средњошколце. Нисам направио рез, али је ионако постао професор математике.
Овогодишња олимпијада, одржала је прошлог месеца на аустралијској обали сунчеве кости, имала је необичан споредни споредник. Док је 110 ученика из целог света отишло на рад на сложеним математичким проблемима користећи оловку и папир, неколико АИ компанија тихо је тестирало нове моделе у развоју на компјутеризованој апроксимацији испита. Одмах након церемонија затварања, ОпенАИ и касније Гоогле Деепминд најавио је да су њихови модели зарадили (незваничне) златне медаље за решавање пет од шест проблема. Истраживачи попут Себастиен Бубецк оф ОпенАи прославили су ове моделе успехе као „Момент“ месечева „у индустрији.
Али да ли су они? Да ли ће све заменити професионалне математике? Још чекам доказ.
О подржавању научног новинарства
Ако уживате у овом чланку, размислите о подршци нашем награђиваном новинарству Претплата. Куповином претплате помажете да се осигура будућност утицајних прича о открићима и идејама које данас у облику света у облику света.
Хипера око овогодишњих АИ резултатима је лако разумети јер је олимпијада тешка. До духовитости, у мојој старијој години средње школе, одложио сам да се израчунава и линеарна алгебра фокусирамо на проблеме у стилу олимпијаде, који су били више изазов. Поред тога, врхунски модели који су и даље у развоју учинили су много боље на испиту него што су већ комерцијални модели већ тамо. У паралелном такмичењу којим управља матхрена.аи, ГЕМИНИ 2.5 ПРО, ГРОК 4, О3 ХИГХ, О4-МИНИ Хигх и Деепсеек Р1 Сви нису успели да произведу једно потпуно исправно решење. Показује да АИ модели постају паметнији, њихове способности расуђивања прилично драматично.
Ипак ме још увек не бринем.
Најновији модели су управо добили добру оцену на једном тесту – као и многи студенти – и упоређивање главе на главу није у потпуности фер. Модели често користе „најбоље од-н„Стратегија, генерисање више решења, а затим се оцртају да би изабрали најјачи. Ово је самостално да се неколико ученика ради самостално, а затим се саставите да одаберете најбоље решење и предате само онај. Ако су људи били дозвољени и њихове оцене.
Остали математичари на сличан начин упозоравају на хипе. ИМО ГОЛД МЕДАЛИСТИ ТЕРЕНЦЕ ТАО (тренутно математичар на Универзитету у Калифорнији, Лос Анђелес) приметио је на Мастодону да оно што АИ може учинити зависи од тога шта је методологија испитивања. Председник ИМО Грегор Долинар рекао је да организација „не може потврдити методе (које користе АИ модели), укључујући количину коришћене рачунаре или да ли постоји било каквих људских учешћа или да ли се могу репродуковати да се резултати могу репродуковати.“
Поред тога, имо испитивања ИМО испит не упоређују се са врстама питања Професионални математичари који покушавају да одговоре, где може да траје девет година, а не на девет сати, да реши проблем на граници математичког истраживања. Као што је Кевин Буззард, професор математике на Империал Цоллеге Лондон, рекао је на мрежном форуму, „Када сам стигао у Цамбридге УК као додипломски, што је поддипломски кокоши медаљом, нисам био ни у којем нисам постојао неку од стране да тамо не било којим од истраживачких математичара.“
Ових дана математичка истраживања могу потрајати више од једног животног века за стицање праве стручности. Као и многи од мојих колега, у искушењу ме испробао „Вибе доказивање“ -Хоћи математички ћаскање са ЛЛМ-ом као да би било са колегом, питајући „да ли је то истина да …“ праћено техничком математичком претпоставком. Цхатбот често испоручује јасно артикулирани аргумент који је у мом искуству има тачан када је у питању стандардне теме, али суптилно погрешно на ивици. На пример, сваки модел који сам питао направио је исту суптилну грешку у претпоставку да се теорија идемпотета понаша исто за слабе бесконачне димензионалне категорије као што то чини обичним, нешто што људски стручњаци (верујте ми на ово) у мом пољу да буду лажни.
Никада не верујем у ЛЛМ – који је у свом језгру само предвиђајући који ће текст доћи следеће у низу речи, на основу онога што је у свом скупу података – да пружим математички доказ да не могу да се верификујем.
Добра вест је да имамо аутоматизовани механизам за утврђивање да ли се могу веровати докази. Релативно недавна алати под називом „Помоћници доказивања“ су софтверски програми (они не користе АИ) дизајнирани да провере да ли логични аргумент доказује наведени захтев. Све више привлаче пажњу математичара попут Тао, Буззарда и ја који желе више осигурања да су наши сопствени докази тачни. И нуде потенцијал да помогну демократизацији математике и чак и побољшавају АИ безбедност.
Претпоставимо да сам примио писмо, у непознатом рукопису, из еродираног града, града у Тамилу Наду, Индији, наводно да садржи математички доказ. Можда су његове идеје сјајне, или можда су бесмислене. Морао бих да проведем сате пажљиво проучавајући сваку линију, што се тиче да аргумент прошао корак по корак, пре него што бих могао да утврдим да ли су закључци истинито или лажни.
Али ако је математички текст написани у одговарајућој синтакси рачунара уместо природног језика, а помоћник доказника може да провери логику за мене. Људски математичар, попут мене, тада бих морао да разумем смисао техничких појмова у изјави теомере. У случају Сриниваса Раманујан, генерацијски математички гениј који је поздравио из Ероде, стручњак је требао времена да пажљиво дешифрује његово писмо. 1913. Раманујан је написао британском математичарском ГХ-а Харди својим идејама. Срећом, Харди је препознао Раманујанску сјај и позвао га у Цамбридге да сарађује, покренуо каријеру једног од својих светских математичких „великана“.
Оно што је занимљиво је да су неки од АИ ИМО такмичара поднели своје одговоре на језик Асистенције на мршаву рачунарску доказу да би рачунар могао аутоматски да провери грешке у њиховом образложењу. Покретање названо Хармониц објављен формални доказ који је створио њихов модел за пет од шест проблема, а подложно је постигло перформансе сребрне медаље решавајући четири од шест проблема. Али питања су морала бити написана да би се прилагодили језичким ограничењима модела и још увек су им требали дани да би то схватили.
Ипак, формални докази су јединствено поуздани. Док се такозване „резоновање“ модели затраже да разбије проблеме у комаде и објашњавају своје „размишљање“ корак по корак, излаз је вјероватно да ће произвести аргумент који звучи логично, али није, као да представља истински доказ. Супротно томе, асистент доказ неће прихватити доказ уколико није у потпуности прецизан и потпуно ригорозан, оправдавајући сваки корак у свом ланцу мисли. У неким околностима, ручно махање или приближно решење довољно је довољно, али када је математичка тачност битна, требали бисмо затражити да су аи-генерисани докази формално провјерити.
Није свака примена генеративног АИ толико црно-бела, где људи са правом стручношћу могу утврдити да ли су резултати тачни или нетачни. У животу је пуно неизвесности и лако је направити грешке. Док сам у средњој школи сазнао, једна од најбољих ствари о математици је чињеница да можете дефинитивно доказати да су неке идеје погрешне. Тако да сам срећан што покушавам да решим своје личне проблеме математике, али само ако су резултати формално провјерљиви. И још увек нисмо тамо.
Ово је чланак о мишљењу и анализи, а ставови који су изразили аутор или аутори нису нужно и оне Научни амерички.