#1004 post — Bel-Geek.com - Тэхналогіі і Навука (@bel

TGStat

Qidiruv uchun matnni kiriting

Ilg‘or kanal qidiruvi

Uzbek

Sayt tili

Russian English Uzbek
Saytga kirish

Katalog

Kanal va guruhlar katalogi Kanallar qidiruvi
Kanal/guruh qo‘shish
Reytinglar

Kanallar reytingi Guruhlar reytingi Postlar reytingi
Brendlar va shaxslar reytingi
Analitika
Postlarda qidiruv
Telegram'ni kuzatish

Bel-Geek.com - Тэхналогіі і Навука

21 Nov, 14:43

Telegram'da ochish Ulashish Shikoyat qilish

Матэматыкі распрацавалі складаныя задачы для праверкі мыслення Gemini, Claude і GPT-4o – яны правалілі амаль усе тэсты

Навукова-даследчы інстытут Epoch AI прадставіў новы набор тэстаў FrontierMath, які патрабуе доктарскага ўзроўню матэматычных ведаў. Да распрацоўкі прыцягнулі прафесараў матэматыкі, у прыватнасці лаўрэатаў Філдсаўскай прэміі. На вырашэнне такіх задач у матэматыкаў-дактароў можа сыходзіць ад некалькіх гадзін да дзён.

Калі ў папярэдніх тэстах MMLU мадэлі ШІ паспяхова вырашалі 98% матэматычных задач школьнага і ўніверсітэцкага ўзроўню, то з новымі задачамі сітуацыя кардынальна іншая.

У даследаванні пратэставалі 6 вядучых мадэляў ШІ. Gemini 1.5 Pro (002) ад Google і Claude 3.5 Sonnet ад Anthropic паказалі лепшы вынік – 2% правільных адказаў. Мадэлі o1-preview, o1-mini і GPT-4o ад OpenAI справіліся з 1% задач, а Grok-2 Beta ад xAI не змагла вырашыць ніводнай задачы.

FrontierMath ахоплівае розныя матэматычныя вобласці - ад тэорыі лікаў да алгебраічнай геаметрыі. Усе тэставыя заданні даступны на сайце Epoch AI. Распрацоўнікі стварылі ўнікальныя задачы, якіх няма ў навучальных дадзеных мадэляў ШІ.

Даследнікі адзначаюць, што нават калі мадэль давала правільны адказ, гэта не заўсёды сведчыла аб правільнасці разваг - часам вынік можна было атрымаць праз простыя сімуляцыі без глыбокага матэматычнага разумення.

Mathematicians devised novel problems to challenge advanced AIs' reasoning skills — and they failed almost every test

Current AI models struggle to solve research-level math problems, with the most advanced AI systems we have today solving just 2% of the hundreds of challenges faced.