DeepSeek崩溃10多小时为何是“好事” 平台稳定性亟待加强
DeepSeek网页和App在连崩10多个小时后终于恢复了。这件事给梁文锋提了个醒,网上都说4月份就要发布DeepSeek-V4了,到时候DeepSeek面临的压力会比现在大得多。怎样让服务器在峰值压力下继续保持平稳工作,这是梁文锋必须解决的问题。比起模型性能,DeepSeek最应该加强的是整个平台,可能需要多买些服务器或增加网络运维人员,以确保平台更加稳固。

回顾这次事故,3月29日晚到3月30日上午,DeepSeek出现了一次持续10多个小时的异常。根据官方状态页时间线,3月29日21:35网页/APP服务异常,23:23一度恢复;随后3月30日00:20又进入新一轮性能异常,直到10:33才标记解决。受影响的主要组件是Web Chat Service,即网页和APP聊天入口这一层。这表明问题不在模型本身,而在于前端接入层、会话层和调度层。这次故障不是一次计划维护,而是连续复发的服务故障。从2025年爆红之后到2026年3月,DeepSeek的网页、API、登录注册都多次出现中断或性能异常,服务器和运维稳定性成为其明显短板。

Web Chat Service覆盖了入口网关、鉴权、会话保持、上下文读写、长连接管理、区域调度和限流策略。用户打开网页、登录账号、进入对话框、继续上一轮聊天、等待内容刷出来的整段链路出了问题。如果把DeepSeek的模型比作厨子,那么出事的相当于是传菜员,厨房依旧运作正常,并未对API服务造成系统性影响。通常情况下,模型推理资源紧张会导致响应变慢、排队时间拉长、答案生成中断或高峰期出现统一的“繁忙”提示。而Web Chat Service出问题则可能导致登录失败、网页一直转圈、会话无法建立、刷新后掉线、恢复后再次中断等现象。

这类事故的发生流程通常是相似的。某个时间窗口里,新会话创建、老会话恢复、页面刷新和登录校验一起增多,最先被顶到高位的是负责分流和验明身份的前置服务。接着,请求被送进会话层,读取用户资料、会话历史、上下文索引和限流状态,这时共享缓存和数据库的读写压力开始升高,连接池被占满,少量慢请求变成大量排队请求。排队一多,前端超时和掉线就开始出现,用户看见页面不动,第一反应通常是刷新、重登、重开新会话。这样一来,第二轮请求又被重新打到入口层,系统相当于一边处理旧流量,一边接住用户自己制造出来的新流量。如果自动扩容跟不上,或者扩出来的新实例还要继续依赖同一套缓存和数据库,那么扩容本身也只能缓解表层,并不能消掉瓶颈。最终,系统会被反复挤压,导致长时间反复拥堵。

值得注意的是,首次出现故障是在北京时间3月29日21:35,虽然这个时间段访问量不低,但并不是最典型的自然新增高峰。第二次故障出现在12点以后,对应欧洲下午和美国东海岸早晨,正好是两个主要英语用户时区重叠的窗口。最近X上流传着一条消息,称DeepSeek网页端已经完成了换代,故意微调成V3来掩人耳目。这条消息吸引了大量海外网友测试所谓的“DeepSeek-V4”,导致大量并不稳定使用DeepSeek的人集中回流,反复登录、刷新页面、尝试新会话,试图判断新模型是否已经暗中上线。这种围观式访问对入口系统的消耗往往不比真正使用小。
这次事故提醒梁文锋,DeepSeek当前最脆弱的环节可能已经不是模型,而是模型之外的整套交付系统。过去一年,DeepSeek最强的部分一直是模型能力、训练效率和开源影响力。无论是V3、R1还是后续的V3.2,DeepSeek都不断把外界注意力拉回到能力跃升本身。但面向普通用户的产品市场并不只看模型本身。用户不会把“模型很好,只是服务不稳”当成两件独立的事。对绝大多数人来说,产品就是那个能否打开、能否登录、能否稳定回复的入口。如果用户打不开网页和APP,再强的模型也无济于事。
2025年1月27日,DeepSeek在美国APP Store热度暴涨后,官方公开表示服务遭遇“大规模恶意攻击”,并临时限制新用户注册。当天DeepSeek的网站和API都经历了异常。2026年3月,类似问题又连续出现。官方状态页显示,3月10日网页和APP一度不可用,3月18日网页和APP出现性能异常,再到这次故障。问题并不是某一次突发事故,而是压力一上来,网页和APP侧的服务稳定性就会优先暴露。模型发布带来关注,关注带来高峰,流量高峰又反过来证明交付系统的薄弱。
关于V4,坊间流传着无数种说法,但DeepSeek官方文档并没有正式发布V4说明,官方API文档当前公开可见的主线仍是V3.2。下一次版本升级如果到来,真正考验DeepSeek的不是技术报告,而是灰度、容量和故障隔离能力。新模型只要更强推理、更长上下文、更偏代码和Agent场景,单次会话占用的资源就不会更轻。叠加围观者集中回流、媒体关注、开发者测试和旧用户尝鲜,DeepSeek-V4的发布日对系统的压力通常会比平时高出一个层级。服务器是梁文锋的软肋,这是一个完整的系统工程判断。模型公司走到一定规模后,真正决定体验的已经不只是GPU数量,而是全链路的容量治理能力。DeepSeek面对的是带有全球传播属性的公共流量,只要下一代模型继续具备话题性,下一次压力就不只是用户规模扩大而已,用户的结构也会变得越来越复杂。这些流量并不均匀,也不友善,会集中出现在少数时间窗口里,并优先冲击网页和APP侧的入口。这种情况最难处理,因为它既不是平稳增长,也不是完全可以预测的营销活动流量,完全是由外部预期驱动的突发同步访问。未来这种冲击大概率还会反复出现。从这个角度看,给梁文锋的提醒其实只有一句话,DeepSeek下一阶段要补的已经不只是模型能力,而是把模型能力稳定送到用户面前的能力。

