И как раз в "дополнение"
прошлому посту про долгосрочное планирование и Vending Bench.
Те, кто читали
исследование METR знакомы с этим графиком [фото 1], но тут график времени линейный, а не логарифмический. По результатам METR эффективное время выполнения задач ИИ удваивалось примерно каждые 7 месяцев и с "прошлым" трендом развитие было бы примерно таким:
• 2026: 2-часовые задания
• 2027: 1 рабочий день (8 часов)
• 2028: 1 рабочая неделя (40 часов)
• 2029: 1 рабочий месяц (167 часов)
Однако недавние выпуски моделей размышления, похоже, ускоряют это тренд до ≈4 месяцев [фото 2, красная линия]. Лучше это становится видно после выпуска o4-mini и o3 и в большем масштабе [фото 3].
Да, METR получил свои результаты проверив все крупные релизы начиная с GPT-2 и эти модели в будущем могут стать обычным "шумом". А с другой стороны могут показывать что прогресс и не думает замедляться.
И просто как интересное наблюдение - новый тренд (красная линия) довольно близок к сценарию описанным в ai-2027.