DeepSeek V4 лидирует в бенчмарках, обгоняя конкурентов

В сети появились предполагаемые результаты технического отчета DeepSeek V4, представленные в виде таблицы с данными по 12 популярным бенчмаркам. Пользователь с ником @xiangxiang103 поделился скриншотами, на которых новая модель китайской компании сравнивается с Gemini 3.1 Pro, GPT-5.3, Opus 4.6 и GPT-4.1. Если эти данные окажутся достоверными, DeepSeek V4 станет бесспорным лидером по всем направлениям. На тесте MMLU-Pro модель набрала 91,2 балла, тогда как ближайший соперник, Gemini 3.1 Pro Preview, достиг 90,0. На математическом тесте AIME 2025 DeepSeek V4 также лидирует с 96,4 балла. Однако при решении реальных задач в репозиториях, DeepSeek V4 показывает лишь 59,6%. Самые низкие результаты наблюдаются на WebArena, где модель набрала 58,7%. Если утечки подтвердятся, DeepSeek V4 займет уверенные позиции на рынке, оставив конкурентов позади. Ожидаем официальный нонс от DeepSeek.

Понравилась статья? Поделиться с друзьями: