DeepSeek — стартап из города Ханчжоу, основным акционером которого является Лян Веньфэн (Liang Wenfeng), соучредитель китайского хедж-фонда High-Flyer.
В марте 2023 года High-Flyer объявил в своем официальном аккаунте WeChat, что он начинает новую жизнь, кроме торговли ценными бумагами, и концентрирует ресурсы на создании «новой и независимой исследовательской группы для изучения AGI» ((Artificial General Intelligence – искусственного интеллекта общего назначения). AGI – это автономные системы, которые превосходят людей в большинстве экономически ценных задач. DeepSeek был создан позже в том же году.
Информация о том, сколько средств High-Flyer инвестировала в DeepSeek, отсутствует. Офис High-Flyer находится в том же здании, что и DeepSeek, и он также владеет патентами на кластеры чипов, используемыми для обучения моделей ИИ.
Подразделение искусственного интеллекта компании High-Flyer сообщило в июле 2022 года, что оно владеет и управляет AGI-кластером из 10 тыс. чипов A100.
DeepSeek отличается от других систем AGI новой архитектурой Multi-head Latent Attention (MLA). Термин сложно перевести на русский, он означает, что итеративный направленный поиск (heading) ведётся сразу по нескольким направлениям, причем, они прорабатываются независимо друг от друга. Эта архитектура позволила сократить стоимость обучения на 90%, поскольку 95% ненужных данных сразу игнорируются. Неясно пока, является ли это гениальным упрощением или просто экономией на алгоритмах.
Тем не менее, результат поражает: DeepSeek обогнал ChatGPT по всем основным бенчмаркам. Модели DeepSeek серии R1 обучались математике методом проб и ошибок, и в итоге достигли уровня GPT-4, но при этом оказались на 95% дешевле.

Успех DeepSeek сразу был замечен в высших политических кругах Китая. 20 января, в день, когда DeepSeek-R1 был представлен публике, основатель компании Deepseek Лян Веньфэн посетил закрытый симпозиум для бизнесменов и экспертов, организованный премьер-министром Китая, как сообщает агентство Синьхуа.
Присутствие Ляна Веньфэна на встрече является потенциальным признаком того, что успех DeepSeek может быть важен для политических целей Пекина по преодолению контроля над экспортом со стороны США и достижению самодостаточности в стратегических отраслях, таких как ИИ.
По информации DeepSeek, были разработаны две модели рассуждений (reasoning models) первого поколения, DeepSeek-R1-Zero и DeepSeek-R1.
DeepSeek-R1-Zero, модель, обученная с помощью крупномасштабного обучения с подкреплением RL (reinforcement learning) без контролируемой тонкой настройки SFT (supervised fine-tuning) продемонстрировала высокую производительность рассуждений. Однако DeepSeek-R1-Zero сталкивается с такими проблемами, как бесконечное повторение, плохая читаемость и смешивание языков.
DeepSeek-R1 имел цель решения этих проблем и ещё большего повышения производительностя рассуждений, в т.ч. при помощи включения данных холодного старта (cold-start data) перед обучением с подкреплением. DeepSeek-R1 достигает производительности, сопоставимой с OpenAI-o1 в задачах математики, генерации кода и рассуждений.
Исходный код DeepSeek-R1-Zero, DeepSeek-R1 и шесть плотных моделей, полученных из DeepSeek-R1 на основе Llama и Qwen, доступны для широкого круга исследователей.
Модели DeepSeek-R1
| Модель | Общее число параметров | Число активиро- ванных параметров | Длина контекста | Ссылки для загрузки модели |
| DeepSeek-R1-Zero | 671 млрд | 37B | 128K | 🤗 HuggingFace |
| DeepSeek-R1 | 671 млрд | 37B | 128K | 🤗 HuggingFace |
Ссылка на страницу DeepSeek R1 на портале GitHub https://github.com/deepseek-ai/DeepSeek-R1