ИСКРЕННЯЯ ЛЕСТЬ И ШЕКСПИРОВСКАЯ ИРОНИЯ
В JP Morgan оценили успех DeepSeek
Изображение: freepik
DeepSeek демонстрирует впечатляющие достижения в области ИИ, предлагая высокопроизводительную языковую модель с низкими затратами. Стоимость обучения модели оказалась в десятки раз ниже по сравнению с конкурентами, а её производительность сопоставима с OpenAI GPT-4o и Anthropic Claude 3.5 Sonnet. При этом DeepSeek предлагает доступ к API по значительно более низкой цене, что может повлиять на рынок генеративного ИИ, пишет председатель рыночной и инвестиционной стратегии JP Morgan Asset & Wealth Management Майкл Чембалест. В обзоре под игривым заголовком «DeepSeek и самая искренняя форма лести» аналитик рассматривает перспективы ИИ-рынка, а также говорит о бесполезности запретов на американские чипы. Одной из главных тем обсуждения на данный момент становится возможный доступ DeepSeek к данным OpenAI через дистилляцию знаний, что может нарушать условия использования. Вопросы о защите интеллектуальной собственности и дальнейшем регулировании открытого ИИ остаются актуальными, особенно в условиях глобальной технологической конкуренции.
Эпизод с DeepSeek может быть двояким, отмечает автор. С одной стороны, он отражает впечатляющие инновации китайского ИИ несмотря на запреты США на чипы и других ограничений. С другой стороны, DeepSeek могла использовать дистилляцию знаний (обучение на данных других моделей, включая OpenAI GPT-4), что говорит о вероятных нарушениях условий обслуживания и авторских прав OpenAI. Шекспировская ирония ситуации заключается в том, что OpenAI, возможно, сама нарушила свои условия обслуживания после многих лет обучения своих моделей на чужих данных.
Как маленькая китайская компания, такая как DeepSeek, с менее чем 200 сотрудниками предлагает высокую производительность языковой модели по низкой цене? Всё дело в используемых методах, включая смесь экспертов (Mixture of experts — MoE), мультиголовочное латентное внимание (Multi-head latent attention — MLA), предсказание нескольких токенов (Multi-token prediction — MTP).
DeepSeek, похоже, обучила свои модели в 45 раз эффективнее, чем другие передовые модели. Для ясности, большинство подходов DeepSeek уже существовали. Её величайшее достижение: понять, как развернуть их все сразу, учитывая запрет на чипы и представить своё собственное самообучение с подкреплением.
GPT-3.5 использует всю свою модель как для обучения, так и для вывода для решения проблем, несмотря на то, что может потребоваться лишь небольшая часть модели. Напротив, GPT-4 и DeepSeek являются моделями смеси экспертов (MoE), которые активируют только те части модели, которые необходимы для решения каждой проблемы. DeepSeek V3 довольно массивная, с 671 миллиардом параметров, но только 37 миллиардов активны в любой момент времени. MLA позволяет поддерживать меньший кэш памяти во время работы. Модели также используют предсказание нескольких токенов (MTP), а не просто предсказание следующего токена, что снижает точность примерно на 10%, но удваивает скорость вывода.
DeepSeek утверждает, что V3 было очень дешёво обучать, что потребовало 2,7 млн часов H800 GPU, что при стоимости $2 за час GPU составляет всего $5,6 млн. Сопоставимое количество часов GPU для финального обучения Llama 3.1 405B было примерно в 10 раз выше. DeepSeek ясно дала понять, что это была стоимость финального обучения, исключая «затраты, связанные с предварительными исследованиями и экспериментами по абляции архитектур, алгоритмов или данных».
Производительность DeepSeek V3 сопоставима с 4o от OpenAI и Sonnet-3.5 от Anthropic и, кажется, лучше, чем у самой большой модели Llama, с более низкими затратами на обучение. DeepSeek предоставляет доступ к API по цене $0,14 за миллион токенов, в то время как OpenAI взимает $7,50 за миллион токенов; возможно, это в некоторой степени демпинговые цены.
DeepSeek, возможно, переспецифицировала свою модель: она заставила её хорошо работать на бенчмарке MMLU, но когда вопросы немного изменились, её производительность снизилась быстрее, чем у других моделей. Необходим дополнительный анализ, чтобы определить, является ли эта сверхспециализация более широкой проблемой.
DeepSeek недавно объявила о новом выпуске: мультимодальная модель (генерация и интерпретация текста и изображений). Неудивительно, что DeepSeek не делает вид, что соблюдает конфиденциальность данных, и хранит всё.
Получили ли модели DeepSeek V2/V3 выгоду от «дистилляции», которая включает обучение модели путём доступа к другим моделям ИИ? Похоже, что так. DeepSeek обучила свои модели на 14,8 триллионах токенов, что является массивной выборкой, аналогичной Llama.
Некоторые аналитики по ИИ полагают, что DeepSeek отправляла запросы модели-учителю GPT-4 или Chat GPT, а затем использовала ответы для обучения своей собственной модели-ученика, по крайней мере, для части процесса обучения. Компании, такие как OpenAI, делают это при выводе GPT-4 Turbo из GPT-4, но они обучают свои собственные модели. Компании, такие как OpenAI и Anthropic, обычно ясно дают понять, что использование их моделей для обучения другой модели является нарушением условий обслуживания (хотя стартапы и исследователи, вероятно, делают это постоянно, например, проект Stanford Alpaca, который раскрыл свои действия). Всё это приводит к вопросу, будут ли в дальнейшем OpenAI и другие компании LLM более агрессивно отслеживать, как/кто/когда/почему используют их модели, и контролировать доступ к ним посредством блокировки IP-адресов или ограничения скорости? И будут ли стартапы находить способы маскироваться?
Что касается подхода с открытым исходным кодом, который использует DeepSeek, мы писали о таких рисках для моделей с закрытым исходным кодом год назад. Проблема открытого исходного кода может стать катализатором постепенного разъединения между Microsoft и OpenAI. Microsoft, вероятно, хочет предоставлять вывод клиентам, но может не решаться финансировать миллиарды долларов для центров обработки данных для обучения моделей, которые в конечном итоге могут стать общедоступными.
DeepSeek также использовала свои модели обучения с подкреплением для дистилляции Llama от Meta и Qwen от Alibaba в более мелкие версии, чтобы продемонстрировать, как они могут превзойти GPT-4o и Claude 3.5 Sonnet в отдельных математических тестах. Дистиллированные модели DeepSeek имеют открытый исходный код и доступны на Hugging Face под лицензией MIT. Такие дистиллированные модели также могут нарушать лицензии Llama, в зависимости от количества активных пользователей конечного продукта в месяц.
При ответе на вопросы о продажах автомобилей VW в Китае ChatGPT, Grok и Gemini дали совершенно разные ответы, в то время как ответ DeepSeek был почти идентичен по формулировкам ChatGPT. Форматирование — ещё один легко идентифицируемый след LLM. Когда его попросили запрограммировать невозможную графическую функцию, ответ DeepSeek на 95% совпадал с ChatGPT, но сильно отличался от мусора, который выдали Co-Pilot, Grok и Gemini. Почему китайский чат-бот должен быть обучен тому, что произошло на площади Тяньаньмэнь в 1989 году, и его так легко уговорить говорить об этом? Почему он говорит о президентах и «лучших городах для жизни», говоря об американских, даже когда его спрашивают на немецком языке? Почему китайский чат-бот называет однопартийное государство «диктатурой» и отвергает однопартийную систему, если только он не был обучен на западных данных с сильными идеологическими убеждениями?
Почему объявление DeepSeek R1 так сильно ударило по NVIDIA и каковы последствия для OpenAI и Anthropic?
R1 от DeepSeek — это модель рассуждения по цепочке мыслей, похожая на o1 от OpenAI. Она может обдумывать проблему и выдавать более качественные результаты в таких областях, как программирование, математика и логика. Самые важные аспекты модели DeepSeek R1 были уже известны месяц назад, когда были выпущены DeepSeek V2/V3. Фондовые рынки начали уделять больше внимания, когда приложение DeepSeek стало более популярным, чем ChatGPT, в App Store.
Одно рыночное потрясение: даже после признания вероятного использования DeepSeek разработок OpenAI, Китай продвинулся дальше в области ИИ-LLM, чем предполагали многие участники рынка. Прорывы в области ИИ-LLM больше не ограничиваются только США. Другое рыночное потрясение: более эффективные процессы обучения/вывода и возможные альтернативы программному обеспечению NVIDIA могут в конечном итоге повлиять на долгосрочные прогнозы портфеля заказов NVIDIA. Один пример: компания могла бы запускать модели вывода на графических процессорах AMD, которые вдвое дешевле NVIDIA по соотношению $/FLOP, если раскрытие кода DeepSeek поможет пользователям смягчить недостатки AMD в области межчиповых коммуникаций.
Я читал в нескольких местах, что запрет США на поставку чипов в Китай косвенно привёл к успеху DeepSeek, заставив Китай внедрять инновации с менее передовым оборудованием и программным обеспечением, китайские инженеры разобрались и разработали инновации. Одно можно сказать наверняка: намерение DeepSeek сделать всё публичным резко контрастирует с заявлениями OpenAI во время выпуска GPT-2 о том, что они не будут публиковать наборы данных, коды обучения или веса моделей из-за опасений, что такие данные могут быть использованы не по назначению «немытой» публикой. Вопросы о том, как модели ИИ с закрытым исходным кодом будут монетизировать интеллектуальную собственность, становятся всё более сложными для ответа. Даже Сэм Альтман признал прошлой ночью, что «R1 от DeepSeek — впечатляющая модель, особенно в отношении того, что они могут предложить по такой цене».
Долгосрочная перспектива для крупных технологических и потребительских компаний
Превращение моделей в товар и более дешёвый вывод, вероятно, в долгосрочной перспективе пойдёт на пользу Big Tech и крупным потребительским компаниям. Стоимость предоставления моделей вывода клиентам снизится, что может увеличить распространение ИИ.
При этом я не могу перестать думать об огромных суммах денег, уже потраченных на вычислительную инфраструктуру ИИ, — отметил Чембалест.
Amazon может выиграть, так как компания не создала собственную высококачественную модель, но теперь может извлечь выгоду из недорогих моделей с открытым исходным кодом, таких как DeepSeek. Оборудование Apple может выиграть от более дешёвых и эффективных моделей вывода. Meta также может выиграть, поскольку почти все аспекты её бизнеса связаны с ИИ в данный момент, хотя будет важно следить за влиянием на Llama.
Google может оказаться в менее выгодном положении: в мире, где требования к оборудованию могут снизиться, TPU Google менее выгодны. Кроме того, снижение стоимости вывода может повысить жизнеспособность и вероятность появления продуктов, которые вытеснят поиск Google. Все эти последствия зависят от того, смогут ли DeepSeek и другие недорогие модели с открытым исходным кодом процветать в мире, где обучающие данные могут быть не такими доступными.
Большинство проектов ИИ полагаются на программное обеспечение CUDA от NVIDIA, которое работает только на чипах NVIDIA. Драйверы NVIDIA проверены в боях и хорошо работают на Linux (в отличие от AMD, которая известна низким качеством и нестабильностью своих драйверов Linux), и получают выгоду от высокооптимизированного кода с открытым исходным кодом в таких библиотеках, как PyTorch. Nvidia также имеет огромное преимущество с точки зрения своей способности объединять несколько чипов в один большой виртуальный графический процессор. Передовая технология межсоединений NVIDIA восходит к покупке Mellanox в 2019 году.
Но вокруг NVIDIA уже некоторое время кружат конкуренты: Cerebras (создаёт один массивный чип, а не много маленьких, тем самым устраняя проблемы межсоединения); Groq (детерминистские вычислительные чипы, которые могут предложить лучшую экономику, если коэффициенты использования GPU достаточно высоки); и несколько компаний, которые пытаются разработать код, который работает на различных графических процессорах и TPU (MLX, спонсируемая Apple; Triton, спонсируемая OpenAI; и JAX, разработанная Google).
Вчера была рыночная реакция «сначала стреляй, потом спрашивай»; соотношение P/E NVIDIA, основанное на ожиданиях будущей прибыли, снизилось до самого низкого уровня с 2020 года, предполагая отсутствие существенных изменений в портфеле заказов NVIDIA… и это большой вопрос.
Последствия для энергопотребления из-за более энергоэффективных моделей обучения и вывода
Ажиотаж по поводу увеличения спроса на электроэнергию со стороны центров обработки данных нужно умерить, считает аналитик. Ещё до DeepSeek уже существовали сильные стимулы для снижения затрат на обучение и вычисления путём разработки более энергоэффективных чипов, а также для разработки и применения программных инноваций, которые требуют меньшего обучения, меньшего количества решений моделей и гораздо меньшего перемещения решений моделей между узлами/чипами в сети.
Политика также может замедлить рост спроса на электроэнергию в США. Так, по энергетической политике Трампа 2.0, налоговые кредиты на солнечную энергию, ветер, аккумуляторы, электромобили, улавливание углерода и другие могут быть сокращены посредством законопроекта о согласовании в Конгрессе, в котором эти сокращения пойдут на оплату снижения налогов. Нижний предел прогноза спроса на электроэнергию в США предрекает рост всего на 7%, даже с учётом электромобилей, электрификации отопления домов и новых центров обработки данных.
UTC+00