Yuklenilir...
Yuklenilir...
Китайская компания DeepSeek готовится выпустить модель V4 в конце апреля. Модель с триллионом параметров на архитектуре Mixture-of-Experts будет распространяться как открытый исходный код под лицензией Apache 2.0.
DeepSeek V4 масштабируется примерно до 1 триллиона параметров, но активирует лишь 37 миллиардов на один токен, сохраняя стоимость инференса на уровне V3. Контекстное окно в 1 миллион токенов реализовано на архитектуре условной памяти Engram, достигая 97% точности в тесте Needle-in-a-Haystack на миллионном масштабе.
В отличие от моделей, к которым зрительные способности добавляются позже, V4 интегрирует генерацию текста, изображений и видео на этапе предобучения, обеспечивая более связное межмодальное рассуждение.
Reuters подтвердил 4 апреля, что DeepSeek V4 будет работать на чипах Huawei Ascend 950PR. Это первая фронтирная AI-модель, созданная для работы на китайской полупроводниковой инфраструктуре.
DeepSeek V4 будет конкурировать с GPT-5.4 от OpenAI, Claude Mythos 5 от Anthropic и моделями Gemini от Google. Открытый исходный код — ключевое отличие. Модель показывает 81% на SWE-bench, что демонстрирует высокую производительность в задачах разработки ПО.
Получайте еженедельные обзоры самых важных новостей на вашу почту.