В сети появились предполагаемые результаты технического отчета DeepSeek V4, представленные в виде таблицы с данными по 12 популярным бенчмаркам. Пользователь с ником @xiangxiang103 поделился скриншотами, на которых новая модель китайской компании сравнивается с Gemini 3.1 Pro, GPT-5.3, Opus 4.6 и GPT-4.1. Если эти данные окажутся достоверными, DeepSeek V4 станет бесспорным лидером по всем направлениям. На тесте MMLU-Pro модель набрала 91,2 балла, тогда как ближайший соперник, Gemini 3.1 Pro Preview, достиг 90,0. На математическом тесте AIME 2025 DeepSeek V4 также лидирует с 96,4 балла. Однако при решении реальных задач в репозиториях, DeepSeek V4 показывает лишь 59,6%. Самые низкие результаты наблюдаются на WebArena, где модель набрала 58,7%. Если утечки подтвердятся, DeepSeek V4 займет уверенные позиции на рынке, оставив конкурентов позади. Ожидаем официальный нонс от DeepSeek.
0
Понравилась статья? Поделиться с друзьями:
Вам также может быть интересно
Лето почти всегда ассоциируется с водой. Она притягивает, снимает усталость, будто стирает лишние мысли.
Любителям качественной съемки и современного дизайна стоит обратить внимание на Google Pixel 10 Pro
Telegram делает важный шаг к формату супераппа, предоставляя возможность разработчикам создавать и запускать полноценные
Администраторы Windows Server более года ожидали решения проблемы с самопроизвольным обновлением серверов до Windows
В ночь на 18 апреля российские средства ПВО зафиксировали перехват и уничтожение 258 украинских
Специалисты из Cybozu Labs, японской компании, занимающейся разработкой ПО и оптимизацией вычислительных процессов, предложили