xAI выпустили свою 3-ю полноценную итерацию модели Grok. В общем - это отличный конкурент OpenAI и отличный прогресс xAI в целом, учитывая тот факт что Grok 2 был выпущен в августе 2024 года, т.е. он достигли огромного прогресса даже за эти пол года. У xAI огромные вычислительные мощности - их датацентр Colossus успел разрастись до 200 тысяч H100(возможно в эквиваленте), а правила масштабирования никто не отменял. По словам xAI Grok 3 использует в 10-15 раз больше вычислительной мощности чем Grok 2.
Краткие итоги:
На данный момент Grok 3 обыгрывает o3-mini на многих тестах(по крайней мере те, которые показали xAI). Grok 3 умеет думать, к него есть аналог Deep Research, который они назвали немного иначе - Deep Search, да и в общем модель довольно способная. Однако большинство этих функций(размышление и Deep Search) доступны только по подписке Premium+, но скорее всего спустя время откроют доступ всем. Также голосовой режим переноситься примерно на неделю. И open-source Grok 2 будет после выхода Grok 3 из беты, точного времени нет - примерно пару месяцев. Можно ли назвать Grok 3 SOTA? Скорее всего нет, но и называть ее плохой моделью тоже нельзя. Если коротко - отличная модель и отличный конкурент(но у меня ощущение что o3 все равно лучше)
Более подробно:
Существует 2 версии Grok - обычная и мини, что довольно распространённая практика, и эти модели некоторое время тестировались на LMArena под названиями Chocolate и Kiwi. Не будем долго мусолить эту тему, перейдем сразу к интересному - тестам.
За счет своих огромных вычислительных мощностей они выжимают максимум из модели без размышлений, достигая довольно отличных результатов которые равны примерно o1-preview(но достигая этого без размышлений).
На LMArena ранняя версия Grok 3 также стала лидером впервые добравшись до 1400 ELO, и по словам xAI у них есть версия модели которая уже лучше того что выпущено сейчас.
Но конечно на чистой пре-тренировке уже лидером не станешь, поэтому Grok также умеет думать(информация про это появилась в октябре). Кроме обычного размышления, они сделали "сильное размышление" - на манер o1 Pro от OpenAI, когда они дают еще больше вычислений\времени модели для выполнения задачи, которое они назвали "Big Brain".
В итоге при помощи первого они составили более-менее физически точную анимацию "перелета" на Марс и возврата на Землю. А при помощи второго - игру, смесь тетриса и три-в-ряд.
При размышлениях модель обыгрывает в том числе o3-mini(high), и это только Beta-версия, они все еще продолжают работу и результаты будут только лучше.
Ну и они также не остаются в стороне и сделали аналог Deep Research от Google\OpenAI\Perplexity, но тут им респект, они назвали его иначе - Deep Search. Что-то рассказывать нет смысла, суть та же как и других.
Изначально доступ будет постепенно выдаваться подписчикам Premium+, в том числе функции размышления и Deep Search также будут пока только для подписчиков. И они показали новую подписку - специально для Grok - SuperGrok, но ничего сверхинтересного в этой подписке нет, кроме безлимитной генерации изображений.
Голосовой режим немного откладывается, примерно на неделю, ему нужно еще немного доработки.
В общем - отличная модель от xAI, хотелось бы увидеть результаты на более сложных тестах, на том же HLE. И интересно посмотреть как себя покажет Grok 3 в этом месяце.
Краткие итоги:
На данный момент Grok 3 обыгрывает o3-mini на многих тестах(по крайней мере те, которые показали xAI). Grok 3 умеет думать, к него есть аналог Deep Research, который они назвали немного иначе - Deep Search, да и в общем модель довольно способная. Однако большинство этих функций(размышление и Deep Search) доступны только по подписке Premium+, но скорее всего спустя время откроют доступ всем. Также голосовой режим переноситься примерно на неделю. И open-source Grok 2 будет после выхода Grok 3 из беты, точного времени нет - примерно пару месяцев. Можно ли назвать Grok 3 SOTA? Скорее всего нет, но и называть ее плохой моделью тоже нельзя. Если коротко - отличная модель и отличный конкурент(но у меня ощущение что o3 все равно лучше)
Более подробно:
Существует 2 версии Grok - обычная и мини, что довольно распространённая практика, и эти модели некоторое время тестировались на LMArena под названиями Chocolate и Kiwi. Не будем долго мусолить эту тему, перейдем сразу к интересному - тестам.
За счет своих огромных вычислительных мощностей они выжимают максимум из модели без размышлений, достигая довольно отличных результатов которые равны примерно o1-preview(но достигая этого без размышлений).
На LMArena ранняя версия Grok 3 также стала лидером впервые добравшись до 1400 ELO, и по словам xAI у них есть версия модели которая уже лучше того что выпущено сейчас.
Но конечно на чистой пре-тренировке уже лидером не станешь, поэтому Grok также умеет думать(информация про это появилась в октябре). Кроме обычного размышления, они сделали "сильное размышление" - на манер o1 Pro от OpenAI, когда они дают еще больше вычислений\времени модели для выполнения задачи, которое они назвали "Big Brain".
В итоге при помощи первого они составили более-менее физически точную анимацию "перелета" на Марс и возврата на Землю. А при помощи второго - игру, смесь тетриса и три-в-ряд.
При размышлениях модель обыгрывает в том числе o3-mini(high), и это только Beta-версия, они все еще продолжают работу и результаты будут только лучше.
Ну и они также не остаются в стороне и сделали аналог Deep Research от Google\OpenAI\Perplexity, но тут им респект, они назвали его иначе - Deep Search. Что-то рассказывать нет смысла, суть та же как и других.
Изначально доступ будет постепенно выдаваться подписчикам Premium+, в том числе функции размышления и Deep Search также будут пока только для подписчиков. И они показали новую подписку - специально для Grok - SuperGrok, но ничего сверхинтересного в этой подписке нет, кроме безлимитной генерации изображений.
Голосовой режим немного откладывается, примерно на неделю, ему нужно еще немного доработки.
В общем - отличная модель от xAI, хотелось бы увидеть результаты на более сложных тестах, на том же HLE. И интересно посмотреть как себя покажет Grok 3 в этом месяце.