DeepSeek – китайцы выходят в лидеры систем общего искусственного интеллекта AGI

DeepSeek — стартап из города Ханчжоу, основным акционером которого является Лян Веньфэн (Liang Wenfeng), соучредитель китайского хедж-фонда High-Flyer.

В марте 2023 года High-Flyer объявил в своем официальном аккаунте WeChat, что он начинает новую жизнь, кроме торговли ценными бумагами, и концентрирует ресурсы на создании «новой и независимой исследовательской группы для изучения AGI» ((Artificial General Intelligence – искусственного интеллекта общего назначения). AGI – это автономные системы, которые превосходят людей в большинстве экономически ценных задач. DeepSeek был создан позже в том же году.

Информация о том, сколько средств High-Flyer инвестировала в DeepSeek, отсутствует. Офис High-Flyer находится в том же здании, что и DeepSeek, и он также владеет патентами на кластеры чипов, используемыми для обучения моделей ИИ.

Подразделение искусственного интеллекта компании High-Flyer сообщило в июле 2022 года, что оно владеет и управляет AGI-кластером из 10 тыс. чипов A100.

DeepSeek отличается от других систем AGI новой архитектурой Multi-head Latent Attention (MLA). Термин сложно перевести на русский, он означает, что итеративный направленный поиск (heading) ведётся сразу по нескольким направлениям, причем, они прорабатываются независимо друг от друга. Эта архитектура позволила сократить стоимость обучения на 90%, поскольку 95% ненужных данных сразу игнорируются. Неясно пока, является ли это гениальным упрощением или просто экономией на алгоритмах.

Тем не менее, результат поражает: DeepSeek обогнал ChatGPT по всем основным бенчмаркам. Модели DeepSeek серии R1 обучались математике методом проб и ошибок, и в итоге достигли уровня GPT-4, но при этом оказались на 95% дешевле.

Уровень точности, достигаемый DeepSeek R1 на различных тестовых задачах

Успех DeepSeek сразу был замечен в высших политических кругах Китая. 20 января, в день, когда DeepSeek-R1 был представлен публике, основатель компании Deepseek Лян Веньфэн посетил закрытый симпозиум для бизнесменов и экспертов, организованный премьер-министром Китая, как сообщает агентство Синьхуа.

Присутствие Ляна Веньфэна на встрече является потенциальным признаком того, что успех DeepSeek может быть важен для политических целей Пекина по преодолению контроля над экспортом со стороны США и достижению самодостаточности в стратегических отраслях, таких как ИИ.

По информации DeepSeek, были разработаны две модели рассуждений (reasoning models) первого поколения, DeepSeek-R1-Zero и DeepSeek-R1.

DeepSeek-R1-Zero, модель, обученная с помощью крупномасштабного обучения с подкреплением RL (reinforcement learning) без контролируемой тонкой настройки SFT (supervised fine-tuning) продемонстрировала высокую производительность рассуждений. Однако DeepSeek-R1-Zero сталкивается с такими проблемами, как бесконечное повторение, плохая читаемость и смешивание языков.

DeepSeek-R1 имел цель решения этих проблем и ещё большего повышения производительностя рассуждений, в т.ч. при помощи включения данных холодного старта (cold-start data) перед обучением с подкреплением. DeepSeek-R1 достигает производительности, сопоставимой с OpenAI-o1 в задачах математики, генерации кода и рассуждений.

Исходный код DeepSeek-R1-Zero, DeepSeek-R1 и шесть плотных моделей, полученных из DeepSeek-R1 на основе Llama и Qwen, доступны для широкого круга исследователей.

Модели DeepSeek-R1

МодельОбщее число параметровЧисло активиро-
ванных параметров
Длина контекстаСсылки для загрузки модели
DeepSeek-R1-Zero671 млрд37B128K🤗 HuggingFace
DeepSeek-R1671 млрд37B128K🤗 HuggingFace

Ссылка на страницу DeepSeek R1 на портале GitHub https://github.com/deepseek-ai/DeepSeek-R1

Аватар Неизвестно

About Алексей Шалагинов

Независимый эксперт
Запись опубликована в рубрике Uncategorized. Добавьте в закладки постоянную ссылку.

Оставьте комментарий

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.