Матэматыкі распрацавалі складаныя задачы для праверкі мыслення Gemini, Claude і GPT-4o – яны правалілі амаль усе тэсты
Навукова-даследчы інстытут Epoch AI прадставіў новы набор тэстаў FrontierMath, які патрабуе доктарскага ўзроўню матэматычных ведаў. Да распрацоўкі прыцягнулі прафесараў матэматыкі, у прыватнасці лаўрэатаў Філдсаўскай прэміі. На вырашэнне такіх задач у матэматыкаў-дактароў можа сыходзіць ад некалькіх гадзін да дзён.
Калі ў папярэдніх тэстах MMLU мадэлі ШІ паспяхова вырашалі 98% матэматычных задач школьнага і ўніверсітэцкага ўзроўню, то з новымі задачамі сітуацыя кардынальна іншая.
У даследаванні пратэставалі 6 вядучых мадэляў ШІ. Gemini 1.5 Pro (002) ад Google і Claude 3.5 Sonnet ад Anthropic паказалі лепшы вынік – 2% правільных адказаў. Мадэлі o1-preview, o1-mini і GPT-4o ад OpenAI справіліся з 1% задач, а Grok-2 Beta ад xAI не змагла вырашыць ніводнай задачы.
FrontierMath ахоплівае розныя матэматычныя вобласці - ад тэорыі лікаў да алгебраічнай геаметрыі. Усе тэставыя заданні даступны на сайце Epoch AI. Распрацоўнікі стварылі ўнікальныя задачы, якіх няма ў навучальных дадзеных мадэляў ШІ.
Даследнікі адзначаюць, што нават калі мадэль давала правільны адказ, гэта не заўсёды сведчыла аб правільнасці разваг - часам вынік можна было атрымаць праз простыя сімуляцыі без глыбокага матэматычнага разумення.
Навукова-даследчы інстытут Epoch AI прадставіў новы набор тэстаў FrontierMath, які патрабуе доктарскага ўзроўню матэматычных ведаў. Да распрацоўкі прыцягнулі прафесараў матэматыкі, у прыватнасці лаўрэатаў Філдсаўскай прэміі. На вырашэнне такіх задач у матэматыкаў-дактароў можа сыходзіць ад некалькіх гадзін да дзён.
Калі ў папярэдніх тэстах MMLU мадэлі ШІ паспяхова вырашалі 98% матэматычных задач школьнага і ўніверсітэцкага ўзроўню, то з новымі задачамі сітуацыя кардынальна іншая.
У даследаванні пратэставалі 6 вядучых мадэляў ШІ. Gemini 1.5 Pro (002) ад Google і Claude 3.5 Sonnet ад Anthropic паказалі лепшы вынік – 2% правільных адказаў. Мадэлі o1-preview, o1-mini і GPT-4o ад OpenAI справіліся з 1% задач, а Grok-2 Beta ад xAI не змагла вырашыць ніводнай задачы.
FrontierMath ахоплівае розныя матэматычныя вобласці - ад тэорыі лікаў да алгебраічнай геаметрыі. Усе тэставыя заданні даступны на сайце Epoch AI. Распрацоўнікі стварылі ўнікальныя задачы, якіх няма ў навучальных дадзеных мадэляў ШІ.
Даследнікі адзначаюць, што нават калі мадэль давала правільны адказ, гэта не заўсёды сведчыла аб правільнасці разваг - часам вынік можна было атрымаць праз простыя сімуляцыі без глыбокага матэматычнага разумення.