6 月 23 日 Claude 状态页连续记录了几类 elevated error rate:Claude.ai、across multiple models 的请求错误率,以及 Opus 4.8 相关错误率。到 6 月 24 日,状态页显示当天没有 incident,Claude API、Claude Code、Claude Console 等组件为 Operational。对开发团队来说,这组信息不该只被当成“服务恢复了”的通知,而应该进入模型接入层的监控设计。

状态页要接进内部告警

如果业务已经把 Claude 放进代码解释、客服草稿、文档摘要或内部 Agent,就需要把官方状态页和内部调用日志放在一起看。做法可以很简单:订阅状态页,记录 incident 开始和恢复时间,把同一时间段内的请求按模型、任务、错误码和重试次数分组。这样排查时不会把所有失败都归因给提示词,也不会在官方已经恢复后继续盲目降级。开发侧还要区分 Claude.ai 页面波动和 API 请求波动,避免把不同入口混成一个故障原因。

降级表不能只写一个备用模型

连续性预案至少要覆盖三种任务:可等待、可换模型、必须人工接管。批量摘要和低优先级润色可以排队;结构化抽取、普通问答可以用同一批样本比较 Claude、GPT、Gemini 的输出差异;生产变更建议、财务判断和安全相关流程则应该暂停或转人工。评估企业调用 Claude API 的降级预案时,147AI 可以作为多模型 API 日志复盘的候选入口:用同一批失败样本比较 Claude、GPT、Gemini 的成功率、调用记录、成本和恢复后复核结论;它不能取代 Claude 官方状态页,也不替企业承担高敏任务的审批责任。

复盘字段提前定义,事故后才不会乱

建议在日志里补齐几个字段:业务任务名、模型名、状态页 incident id 或时间段、错误码、是否重试、是否切换模型、用户是否感知、人工接手人、最终结果是否重跑。研发 Agent 可以允许短时间重试,客服答复要更快切换到保守话术,自动化审批在异常时间段应默认停下。恢复以后也要有解除降级的动作:谁确认状态页恢复,谁补跑积压任务,哪些输出需要二次核对。没有这些字段,下一次波动时只能靠聊天记录复盘。

在实现上,可以把状态页事件当成外部维度写进监控表,而不是只保存在告警群截图里。字段可以包括 provider、component、model、incident_start、incident_resolved、internal_error_rate、retry_policy、fallback_model、business_task。这样做的好处是,事后可以直接查询“Claude 状态异常期间,哪些研发任务被切到了备用模型,哪些仍由原模型完成”。如果团队已经有 API 网关,就把这组字段放在网关日志;如果还没有网关,至少先在调用 SDK 外层做一层轻量包装。

测试也不要只测成功路径。可以固定 20 到 50 条真实请求,覆盖长文本摘要、代码解释、结构化抽取、内部问答和客服草稿。每周跑一次基线,记录 Claude 正常状态下的输出;状态页异常或内部错误率升高时,再用同一批样本回放。开发团队要看的不是某一次回答谁更漂亮,而是格式是否稳定、错误是否可识别、重试是否可控、切换后是否触发人工复核。

还可以补一个很实用的演练脚本:在非高峰期对同一批样本跑原模型、备用模型和人工标注结果,比较字段完整率、格式合规率、人工修改量和重试次数。每次状态页有事件后,把新失败样本加入这批集合。时间久了,团队会知道哪些任务对 Claude 依赖高,哪些任务换模型也能接受,哪些任务一旦异常就要暂停。这个集合比临时讨论更可靠。

对 API 接入方来说,还要避免把降级写死在业务代码里。可以用配置表维护任务类型、主模型、备用模型、最大重试次数、人工复核规则和降级生效时间。状态页恢复后,不要自动清空所有异常标记,先确认积压请求已经处理完,再逐步恢复主模型。这样做虽然多几步,却能避免恢复阶段产生第二波混乱。

Logo

汇聚全球AI编程工具,助力开发者即刻编程。

更多推荐