
万众期待的DeepSeek新模子揭开面纱。4月24日, DeepSeek全新系列模子V4预览版块精致上线并同步开源。这次DeepSeek总共上线两个版块,DeepSeek-V4-Pro对标顶级闭源模子,1.6T,49B激活,高下文长度1M;DeepSeek-V4-Flash系更小更快的经济版,284B,13B激活,高下文长度1M。 火狐官网
早在4月8日,DeepSeek App就一经进行了改版,上线撑合手复杂推理的“内行模式”,和处分轻便任务的“快速模式”。跟着V4的发布不错看到,负责“内行模式”的是1.6T参数目的V4-pro,撑合手“快速模式”的则是284B的V4-flash。
据先容,DeepSeek-V4领有百万字超长高下文,在Agent身手、寰宇学问和推感性能上均达成国内与开源限度的擢升。DeepSeek-V4-Pro性能并列顶级闭源模子。谢寰宇学问测评中,大幅擢升其他开源模子,仅稍逊于顶尖闭源模子Gemini-Pro-3.1。
比拟前代模子,DeepSeek-V4-Pro的Agent身手权贵增强。在Agentic Coding评测中,V4-Pro已达到刻下开源模子最好水平,并在其他Agent关系评测中相同推崇优异。
自R1版块发布以来,DeepSeek就被视为以改换阵势引颈模子发展。这一次新模子发布也不例外,据DeepSeek先容,DeepSeek-V4创举了一种全新的留心力机制,在token维度进行压缩,火狐体育中国官网入口辩论DSA寥落留心力(DeepSeek Sparse Attention),达成了各人擢升的长高下文身手,何况比拟于传统神志大幅缩小了对筹备和显存的需求。
畴前DeepSeek网页版最多高下文长度是128K,从4月24日驱动1M是全线官方职业的默许高下文。据先容,这一变化背后是新的留心力机制V4在token维度作念压缩,再重叠DeepSeek自家的DSA寥落留心力。效能上,现在1M高下文下,V4-Pro的单token推理FLOPs惟有V3.2的27%,KV cache只消V3.2的10%。V4-Flash更极致,单token FLOPs只消V3.2的10%,KV cache只消 7%。
ag官方网站登录入口近段时间以来,DeepSeek另一个备受关爱的音书是,梁文锋终于对外部融资松了口。此前有音书称,DeepSeek正在洽说念融资,投资方为腾讯与阿里巴巴,DeepSeek本轮融资的估值约200亿好意思元。其时,DeepSeek、腾讯、阿里三方均未公开阐发或回报上述投资意向。
此外,业界也以为,DeepSeek新模子缓不应急或与V4将磨练框架从英伟达移动到华为昇腾上关联。据悉,DeepSeek V4将经受华为本事公司谋划的最新芯片,部署国产算力。
现在,DeepSeek-V4-Pro每百万tokens输入(缓存掷中)价钱为1元,每百万tokens输入(缓存未掷中)价钱为12元;每百万tokens输出价钱为24元。DeepSeek强调,输入下半年昇腾950超节点批量上市后,pro版块价钱会大幅下调。
更轻便的DeepSeek-V4-Flash每百万tokens输入(缓存掷中)价钱为0.2元,每百万tokens输入(缓存未掷中)价钱为1元;每百万tokens输出价钱为2元。
采写:南王人N视频记者 林文琪