Што такое DeepSeek? Бясплатны аналаг ChatGPT, але адказвае як кітайскі камуніст і не абараняе дадзеныя
DeepSeek-R1- гэта ШІ-мадэль, распрацаваная кітайскім стартапам DeepSeek. Яна выклікала значны рэзананс, бо з’яўляецца канкурэнтам вядучым мадэлям, напрыклад, OpenAI o1. У той жа час DeepSeek-R1 мае адкрыты код і эканамічна больш эфектыўны, чым большасць рынкаў AI на рынку. Як кітайцам гэта ўдалося?
Штучны інтэлект з DeepSeek апярэдзіў ChatGPTу рэйтынгу App Store, абваліў акцыі Nvidia на 12%, а Meta і Microsoft на 4%. Еўрапейскія кампаніі ASML і Tokyo Electron таксама панеслі страты. Крыптавалюты, звязаныя з ШІ і майнингам, таксама пападалі. І гэта далёка не ўё, што кітайскі ШІ здолеў зрабіць за тыдзень.
Згодна з дадзенымі кансалтынгавай кампаніі Preqin, інвестыцыі ЗША ў штучны інтэлект у 2023 годзе перавысілі Кітай у шэсць разоў і склалі $26,6 мільярда да $4 мільярдаў.
OpenAI і Google не раскрывалі дакладны кошт навучання мадэляў AI (гэта самая складаная, карпатлівая і затратная частка працы). Але відавочна, што гэта жудасна дарагая справа. Калі Openai выпусціў GPT-3 у 2020 годзе, пастаўшчык воблака Lambda выказаў здагадку, што навучанне гэтай мадэлі з 175 мільёнамі параметраў каштавала больш за $4,6 млн. Openai не раскрывае памер GPT-4, які ён выпусціў год таму, але дадзеныя ад 1 трлн да 1,8 трлн. Генеральны дырэктар Сэм Альтман недакладна вызначыў кошт навучання ў больш чым $100 мільёнаў.
Паводле справаздачы EPOCH AI з мая 2024 года паказала, што аб'ёмы адукацыйных разлікаў перадавых мадэляў AI растуць 4-5 раз у год. Такім чынам, паводле сярэдняй ацэнкі, кошт падрыхтоўкі самых дарагіх мадэляў AI да 2030 года (за выключэннем заробкаў даследчыкаў) дасягне $140 мільярдаў.
А вось крыху пра час трэніровак. Калі была выкарыстана машына Exaflop, то GPT-3 (з 175 мільярдаў параметраў) са складанасцю навучання каля 3,14 × 10²³, то для завяршэння трэніроўкі мадэлі з 300 мільярдамі токенаў было неабходна 314 000 секунд. Гэта каля 3,5 дзён.
Калі OpenAI выкарыстоўвала графічныя працэсары NVIDIA V100, то для завяршэння трэніроўкі GPT-4 неабходна каля 5-6 месяцаў.
І тут з’яўляецца Deepseek, якая кажа, што яна распрацавала V3 усяго за 2 месяцы і выдаткавала ўсяго $5,6 мільёна. Прычым некаторыя версіі мадэляў DeepSeek могуць быць запушчаныя на мясцовым узроўні. Як гэта магчыма?!
У лістападзе 2023 года з'явілася мадэль DeepSeek Coder з адкрытым зыходным кодам, а затым DeepSeek-LLM, які, акрамя таго, можа стварыць тэкст. У красавіку 2024 года святло ўбачыла абноўленая версія DeepSeek-Coder пад назвай DeepSeek-Math. У тым жа годзе былі выпушчаныя два абнаўленні DeepSeek -LLM: V2 і V2.5. У лістападзе з'явілася папярэдняя версія DeepSeek R1, асновай якой быў DeepSeek-V3-Base. У канцы года з’явіласяDeepSeek-V3 - абноўленая версія DeepSeek-V2, на аснове, быў створаны DeepSeek R1, які і стварыў перапалох у пачатку года.
DeepSeek-V3 навучалі на 14,8 трлн. токенаў, А DeepSeek R1 яшчэ дадаткова на прыкладна 800 тысяч узорах. Запыты на R1 каштуюць на 98% танней, чым у GhatGPT. Нягледзячы на абмежаванні ЗША экспарт магутных чыпаў, DeepSeek выкарыстаў даступныя NVIDIA H800 і некаторыя ўласныя распрацоўкі.
У той жа час, генератыўная мадэль DeepSeek-R1 мае адкрыты код і прадукцыйнасць на ўзроўні закрытых мадэляў, напрыклад, O1 з OpenAI.
DepSeek R1 заснаваная на вялікай асноўнай мадэлі пад назвай DeepSeek-V3 і выкарыстоўвае архітэктуру
Mixture of Experts (MoE), якая дазваляе эфектыўна апрацоўваць складаныя задачы, актывізуючы толькі частку сваіх параметраў падчас разлікаў. Агульная колькасць параметраў складае 671 млрд (мадэль займае 400 ГБ), але пры апрацоўцы кожнага запыта актывіруецца толькі каля 37 мільярдаў, што забяспечвае баланс паміж прадукцыйнасцю і эфектыўнасцю. Гэта значыць, эканоміць час і рэсурсы.
Для гэтага ствараюцца падмадэлі, якія маюць розныя экспертнасць (сумесь экспертаў). І ўжо ў залежнасці ад запыту карыстальніка актываваны толькі неабходныя эксперты, і паміж імі распаўсюджваюцца рэсурсы.
З плюсаў: