DeepSeek-V4发布：百万上下文 + 昇腾算力，国产大模型进入新阶段

今天，DeepSeek全新系列模型DeepSeek-V4的预览版本正式上线并同步开源。

1.上下文

两款模型DeepSeek-V4-Pro以及DeepSeek-V4-Flash均支持1M 上下文长度，最大输出384K tokens。

DeepSeek-V4采用全新注意力机制，在token维度进行压缩，结合DSA稀疏注意力（DeepSeek Sparse Attention），大幅降低计算和显存需求。1M上下文为DeepSeek所有官方服务的标配。

2.性能

DeepSeek-V4-Pro

Agentic Coding评测达当前开源模型最佳水平，其他Agent评测同样表现优异；
公司内部已作为Agentic Coding 模型使用，评测反馈优于Sonnet 4.5，交付质量接近Opus 4.6非思考模式，与Opus 4.6思考模式存在一定差距；
世界知识测评大幅领先其他开源模型，仅稍逊于Gemini-Pro-3.1；
数学、STEM、竞赛型代码测评超越所有已公开评测的开源模型，比肩顶级闭源模型；
针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent产品进行了适配优化；。

DeepSeek-V4-Flash

世界知识储备稍逊于DeepSeek-V4-Pro，推理能力接近；
模型参数和激活更小，提供更快捷、经济的API服务；
简单Agent任务与Pro旗鼓相当，高难度任务仍有差距。

3.价格

当前两款模型上下文长度均为1M，百万tokens计费：

计费项	V4-Flash	V4-Pro
输入（缓存命中）	¥0.2	¥1
输入（缓存未命中）	¥1	¥12
输出	¥2	¥24

DeepSeek官方表示，受限于高端算力，目前V4-Pro的服务吞吐十分有限，预计下半年昇腾 950 超节点批量上市后，Pro 的价格会大幅下降。

这证明了昇腾算力已在DeepSeek-V4上投入实际使用，后续有望推广至GLM、Kimi等其他国产大模型，从根本上缓解国内高端算力紧张的问题。
届时，长上下文、多轮交互的Agent调用场景将迎来成本和性能的双重优化——更大的上下文窗口、更密集的Agent编排调用将不再频繁遇到429错误码，将成为更稳定的基础设施能力。

4.API调用

Base URL：https://api.deepseek.com（OpenAI 格式）/ https://api.deepseek.com/anthropic（Anthropic 格式）
Model 参数：deepseek-v4-pro或deepseek-v4-flash
两款均支持非思考模式与思考模式，思考模式支持reasonion_effort 参数（high / max）
deepseek-chat和deepseek-reasoner将于 2026-07-24停用，当前分别对应 V4-Flash 的非思考模式与思考模式

Menu

Share

DeepSeek-V4发布：百万上下文 + 昇腾算力，国产大模型进入新阶段

1.上下文

2.性能

3.价格

4.API调用

Comment

基于飞书网页登录流程解释OAuth 2及JustAuth集成实践

Win11主机启动WSL报错：CreateInstance/CreateVm/ConfigureNetworking

Edge浏览器同步设置

解决HP+Win11笔记本电脑上Idea编辑器无法使用shift+F6快捷键

用三层规则体系驯服 AI：Cursor .mdc 与 VS Code Copilot 实战笔记

Taro跨端应用中的SSE流式请求实现：兼容微信小程序与H5的统一方案

移动云重新挂载云硬盘

Spring Cloud Gateway 5.0性能基准测试：WebFlux vs WebMVC（含虚拟线程对比）

WSL2下部署Qwen3模型：配置、优化与资源管理

rCore学习——建立跳板页面