DeepSeek-V3AI大模型

發(fā)布時間：2025-2-23 10:55:01　瀏覽次數(shù)：次

信息來源：百度百科

DeepSeek-V3是由中國AI初創(chuàng)公司杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司于2024年12月26日發(fā)布的AI大模型。

DeepSeek-V3為自研 MoE 模型，671B參數(shù)，激活37B，在 14.8Ttoken上進(jìn)行了預(yù)訓(xùn)練。 DeepSeek-V3采用FP8訓(xùn)練，并開源了原生FP8權(quán)重。 ]DeepSeek-V3生成速度相比其上一代模型DeepSeek-V2.5實(shí)現(xiàn)了3倍的提升，但暫不支持多模態(tài)輸入輸出。 DeepSeek-V3的應(yīng)用場景包括聊天和編碼場景、多語言自動翻譯、圖像生成和AI繪畫等。 2024年12月26日晚間，杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司宣布，全新系列模型DeepSeek-V3首個版本上線并同步開源。 2025年1月27日，DeepSeek-V3登頂蘋果中國地區(qū)和美國地區(qū)應(yīng)用商店免費(fèi)APP下載排行榜，在美區(qū)下載榜上超越了ChatGPT。 2025年2月3日消息，百度智能云千帆平臺已正式上架DeepSeek-V3模型。 2月4日，DeepSeek-V3正式上線昇騰社區(qū)。 2月5日，京東云已正式上線DeepSeek-V3模型，支持公有云在線部署、專混私有化實(shí)例部署兩種模式，供用戶按需部署，快速調(diào)用，2月5日左右，DeepSeek-V3上線國家超算互聯(lián)網(wǎng)平臺。 2月10日，中國電子云上線DeepSeek-R1/V3全量模型。

在“大模型競技場”的最新榜單中，DeepSeek-V3排進(jìn)前十。

發(fā)展歷程

2024年12月26日晚間，杭州深度求索人工智能基礎(chǔ)技術(shù)研究有限公司宣布，全新系列模型DeepSeek-V3首個版本上線并同步開源。 2025年1月27日，DeepSeek-V3登頂蘋果中國地區(qū)和美國地區(qū)應(yīng)用商店免費(fèi)APP下載排行榜，在美區(qū)下載榜上超越了ChatGPT。 DeepSeek-V3在所有模型中排名第七，在開源模型排第一。而且，DeepSeek-V3是全球前十中性價比最高的模型。DeepSeek-V3發(fā)布后，英偉達(dá)股價下跌了2%。

2025年2月3日，百度智能云千帆平臺已正式上架DeepSeek-V3模型。 2月3日，阿里云計(jì)算有限公司發(fā)文官宣，阿里云PAI Model Gallery 支持云上一鍵部署DeepSeek-V3、DeepSeek-R1。 2月4日，DeepSeek-V3正式上線昇騰社區(qū)。 2月5日，京東云已正式上線DeepSeek-V3模型，支持公有云在線部署、專混私有化實(shí)例部署兩種模式，供用戶按需部署，快速調(diào)用。 2月，金山云在公有云場景和國資云/政務(wù)云場景已支持DeepSeek-R1/V3。 2月8日，商湯科技宣布，即日起，企業(yè)客戶和開發(fā)者可在商湯大裝置萬象平臺中，快速部署DeepSeek-V3、DeepSeek-R1等模型，可享受3個月內(nèi)1000萬tokens免費(fèi)使用權(quán)益。 2月10日，訊飛開放平臺上線第807項(xiàng)AI能力——由杭州深度求索帶來的DeepSeek全系列模型。DeepSeek-V3、DeepSeek-R1均已上線，支持公有云API調(diào)用、一鍵部署專屬模型。 2月10日，中國電子發(fā)布消息稱，其所屬中國電子云CECSTACK智算云平臺正式上線MoE架構(gòu)的671B全量DeepSeek-R1/V3模型，以及DeepSeek-R1的蒸餾系列Qwen/Llama模型，并提供私有化部署方案。 2月，無問芯穹已打通DeepSeek-R1、V3在壁仞、海光、摩爾線程等七個硬件平臺的適配優(yōu)化，開發(fā)者已可通過Infini-AI異構(gòu)云平臺獲取DeepSeek系列模型與多元異構(gòu)國產(chǎn)算力服務(wù)。 2月13日，阿里巴巴旗下“通義靈碼”宣布全新上線模型選擇功能，支持基于百煉的 DeepSeek-V3 和 DeepSeek-R1 滿血版 671B 模型。 2月，廣州市政務(wù)服務(wù)和數(shù)據(jù)管理局在政務(wù)外網(wǎng)正式部署上線DeepSeek-R1、V3 671B大模型，通過融合海量政務(wù)數(shù)據(jù)要素，大模型將豐富政務(wù)服務(wù)場景應(yīng)用，推動人工智能大模型在民生政策解讀系統(tǒng)、12345熱線工單分派等政務(wù)領(lǐng)域應(yīng)用。

2025年2月，據(jù)浙江大學(xué)消息，深度融合智能體“浙大先生”于2月14日正式發(fā)布，本地化部署 DeepSeek V3、R1 模型，基于 CARSI 資源共享平臺，覆蓋教學(xué)、科研、生活等全場景；“浙大先生”將面向全國 829 所 CARSI 聯(lián)盟高校開放共享，師生只需通過校園賬號登錄即可免費(fèi)使用滿血版 DeepSeek，2月20日起，該入口將正式開放。 2月20日，超圖軟件在投資者互動平臺表示，公司對于DeepSeek-V3大模型已經(jīng)完成對接和適配。 2月，《杭州新聞聯(lián)播》AI主播“零失誤上崗”刷屏，主播現(xiàn)場揭秘自己AI分身：第一時間接入DeepSeek-V3，所以相比之前，AI分身變得更“聰明”了。 2025年2月21日，京東云宣布DeepSeek一體機(jī)再升級，京東云 vGPU 智算一體機(jī)單臺即可運(yùn)行滿血版 DeepSeek V3 / R1。

技術(shù)特點(diǎn)

DeepSeek-V3 是一個混合專家（MoE）語言模型，具有總計(jì)671億個參數(shù)，每個 token 激活 37 億個參數(shù)。該模型在14.8萬億個多樣且高質(zhì)量的tokens上進(jìn)行了預(yù)訓(xùn)練，并通過監(jiān)督微調(diào)和強(qiáng)化學(xué)習(xí)階段進(jìn)一步優(yōu)化。

訓(xùn)練成本

DeepSeek V3的訓(xùn)練成本僅使用了2048個H800GPU，總訓(xùn)練GPU卡時為2788千小時（其中預(yù)訓(xùn)練為2664千小時），平均到每個GPU上僅為1361小時，約合56.7天。

基準(zhǔn)測試

在多項(xiàng)基準(zhǔn)測試中，DeepSeek-V3的成績超越了Qwen2.5-72 B和Llama-3.1-405 B等其他開源模型，并在性能上和世界頂尖的閉源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。在數(shù)學(xué)能力方面，以2024年美國數(shù)學(xué)競賽和全國高中數(shù)學(xué)聯(lián)賽題庫進(jìn)行測試，DeepSeek-V3大幅超過了所有開源閉源模型。 DeepSeek V3在長文本處理、代碼生成和數(shù)學(xué)推理等多個領(lǐng)域都展示了頂尖的性能。特別是在中文任務(wù)和數(shù)學(xué)基準(zhǔn)測試中，DeepSeek V3的表現(xiàn)尤為突出，展現(xiàn)了其深刻的理解和處理能力。通過算法和工程上的優(yōu)化，DeepSeek V3在生成速度上實(shí)現(xiàn)了三倍提升，從20 TPS提高到60 TPS，極大改善了用戶的交互體驗(yàn)和模型響應(yīng)速度。

應(yīng)用場景

聊天和編碼場景：為開發(fā)者設(shè)計(jì)，能夠理解和生成代碼，提高編程效率。多語言自動翻譯：支持多達(dá)20種語言的實(shí)時翻譯和語音識別，適合需要處理多種語言內(nèi)容的企業(yè)用戶。

圖像生成和AI繪畫：整合視覺理解技術(shù)，允許用戶通過簡單的文本描述生成高質(zhì)量圖像，豐富應(yīng)用場景和用戶創(chuàng)意表達(dá)的自由度。

產(chǎn)品定價

DeepSeek-V3的模型API服務(wù)定價為每百萬輸入tokens 0.5元（緩存命中）/ 2元（緩存未命中），每百萬輸出tokens 8元。 [12]2024年12月26日起至2025年2月8日，DeepSeek-V3 的 API 服務(wù)價格仍然是每百萬輸入tokens 0.1元（緩存命中）/ 1元（緩存未命中），每百萬輸出tokens 2元，已經(jīng)注冊的老用戶和在此期間內(nèi)注冊的新用戶均可享受以上優(yōu)惠價格。 [14]

模型對比

百科知識：DeepSeek-V3 在知識類任務(wù)（MMLU, MMLU-Pro, GPQA, SimpleQA）上的水平相比前代 DeepSeek-V2.5 顯著提升，接近當(dāng)前表現(xiàn)最好的模型 Claude-3.5-Sonnet-1022。長文本：在長文本測評中，DROP、FRAMES 和 LongBench v2 上，DeepSeek-V3平均表現(xiàn)超越其他模型。代碼：DeepSeek-V3 在算法類代碼場景（Codeforces），遠(yuǎn)遠(yuǎn)領(lǐng)先于市面上已有的全部非o1類模型；并在工程類代碼場景（SWE-Bench Verified）逼近Claude-3.5-Sonnet-1022。中文能力：DeepSeek-V3 與 Qwen2.5-72B 在教育類測評 C-Eval 和代詞消歧等評測集上表現(xiàn)相近，但在事實(shí)知識 C-SimpleQA 上更為領(lǐng)先。

相關(guān)評價

DeepSeek-V3是中國科技界帶給美國的苦澀教訓(xùn)。當(dāng)美國休息時，中國（科技界）在工作，以更低的成本、更快的速度和更強(qiáng)的實(shí)力趕上。（AI數(shù)據(jù)服務(wù)公司Scale AI創(chuàng)始人Alexander Wang評） “從斯坦福到麻省理工，DeepSeek-R1幾乎一夜之間成為美國頂尖大學(xué)研究人員的首選模型。”（A16z合伙人、Mistral AI董事會成員Anjney Midha評）DeepSeek-R1是一款令人印象深刻的模型，尤其是考慮到它能夠以這個價格提供（這樣的產(chǎn)品），有這樣的新競爭對手確實(shí)令人振奮。 美國開放人工智能研究中心（OpenAI）首席執(zhí)行官薩姆·奧爾特曼評）

DeepSeek-V3模型有可能徹底改變訓(xùn)練和推理領(lǐng)域的游戲規(guī)則。（Noah's Arc資本管理公司評） 資源限制是一件美妙的事情。在競爭激烈的人工智能領(lǐng)域中，生存本能是推動突破的主要動力。本人一直在關(guān)注DeepSeek。去年他們擁有最好的開源編碼模型之一。卓越的開源模型給前沿的大語言模型商業(yè)公司帶來了巨大的壓力，迫使他們加快步伐。本人非常期待看到DeepSeek在開源平臺LM Arena上的ELO評分！（英偉達(dá)高級科學(xué)家范麟熙（Jim Fan）評）FP8預(yù)訓(xùn)練、混合專家模型（MoE）、在極其有限的預(yù)算下表現(xiàn)出色，以及通過CoT（Chain of Thought）進(jìn)行蒸餾引導(dǎo)以實(shí)現(xiàn)自舉……這真是了不起的工作。（Meta AI（FAIR）的研究科學(xué)家和高級經(jīng)理田遠(yuǎn)東（Yuandong Tian）評）美國的芯片出口管制并未達(dá)到預(yù)期效果。中國的DeepSeek V3模型表現(xiàn)非常強(qiáng)大，其訓(xùn)練成本遠(yuǎn)低于預(yù)期。（硅谷風(fēng)險(xiǎn)投資公司Conviction創(chuàng)始人莎拉·郭（Sarah Guo）評） 對于Sonnet級別而言，550萬美元的投資確實(shí)是一項(xiàng)值得夸耀的成就，他們對此感到自豪是情理之中的事，盡管這不免給人一種炫耀之感。1億美元的運(yùn)算成本，405B模型耗費(fèi)了3084萬H100 GPU小時，是嗎？西方的拙劣嘗試者們的硅資源被白白浪費(fèi)了，思路甚至無法減少自己模型的損失。”（麻省理工學(xué)院博士生樸英孝(Younghyo Park)評） 在當(dāng)前的討論中，DeepSeek模型被頻繁地與‘中國’聯(lián)系在一起，并且隱含地與中美關(guān)系或GPU能力聯(lián)系起來。但在我看來，DeepSeek的成功與這些因素關(guān)系不大。這僅僅是智慧和實(shí)用主義的體現(xiàn)：在有限的計(jì)算資源和人力條件下，通過聰明的研究產(chǎn)生最好的結(jié)果。就像當(dāng)年阿歷克斯·克里茲赫夫斯基（Alex Krizhevsky）需要用僅有的2個GPU創(chuàng)造奇跡一樣，而不是依賴一個超級計(jì)算集群。（Lepton AI的創(chuàng)始人、首席執(zhí)行官賈揚(yáng)清評）

模型事件

2025年1月24號，一條發(fā)布在匿名平臺teamblind上的帖子瘋傳。一名Meta員工稱，現(xiàn)在Meta內(nèi)部因?yàn)镈eepSeek的模型，已經(jīng)進(jìn)入恐慌模式。工程師們正在爭分奪秒地分析DeepSeek，試圖復(fù)制其中的一切可能技術(shù)。