定时任务静默跳过、日志里啥也没有
定时任务到点没跑、日志也没报错。修复方向:时区统一 UTC、加心跳指标、对漏跑次数告警。
带有该标签的文章
定时任务到点没跑、日志也没报错。修复方向:时区统一 UTC、加心跳指标、对漏跑次数告警。
ALTER TABLE 迁移在生产卡住。用 pg_stat_activity 找出阻塞者、终止它、加 lock_timeout 重跑。
容器以退出码 137 重启。OOM killer 撞上了 --memory 上限。定位泄漏、profile 堆、设合理上限、止血。
gRPC 客户端在压力上来时 DEADLINE_EXCEEDED 满天飞。把 deadline 往下游传、调合理超时、加重试策略和熔断器。
JWT 校验时不时报 token 已过期,连刚签发的也中招。修法:NTP 同步时钟、JWT 校验加 leeway、之后再缩短 TTL。
MongoDB pipeline 慢成狗。用 explain('executionStats')、加复合索引、`$match` 前置、`$facet` 拆并行分支。
RabbitMQ 显示消费者健康连接、队列却越堆越多。修 prefetch、unacked 消息和死信路由,把卡住的消费者救出来。
AWS S3 预签名 URL 小文件没事、大文件传到一半 403。修法:加长 TTL、改 multipart 上传、或者直接用 SDK 的上传管理器。
扩了一堆 consumer pod,lag 还在往上走。瓶颈基本不是 consumer 不够多,而是 partition 数、poison message、或者 commit offset 漂移。
表越来越胖、查询越来越慢,pg_stat_progress_vacuum 又看不到东西在跑。一个没人管的长事务在拖整个集群的 xmin horizon。
一个慢 resolver 触发限流,把所有共享该上游的查询都拖垮。通过 resolver 复杂度计费、DataLoader 批量、熔断器来修。
SQS / RabbitMQ / Kafka 的 DLQ 不停涨。通过分类失败、修毒丸消息根因、加退避重试预算来处理。
Postgres 在流量上来时报 'remaining connection slots reserved'。通过调整池大小、上 PgBouncer、清理长 idle 连接来修。
主节点挂了,但没有副本被升主,集群停在 fail 状态。通过检查 quorum、网络分区、副本优先级配置来修。
登录回调跳回 localhost 或错误域——allowed redirect URI 配置问题。
浏览器 CORS 拒绝——服务端配置 / origin 不匹配。
Edge function 超过平台限制——重活别放 edge / 加超时 / 用 streaming。
firebase deploy 报权限错——IAM / 登录账号 / 项目对应。
2026 最新:调用函数返回 not found——名字 / 区域 / 部署。
2026 最新:SPA / 函数的 rewrite 没触发——顺序 / 同名静态文件 / 函数区域。
本地 npm run dev 全绿、部署到 Vercel 就 build fail 或功能全坏——根因永远是本地的隐式假设在生产不成立。本文从 env、runtime、文件系统、网络、build 五维做 diff。
Stripe、Shopify、Twilio 等第三方 API 在流量上来时频繁 429——本文按命中率拆原因,给出指数退避、本地缓存、请求合并和并发限流四套修复模式,每条都附代码片段。
S3 / Firebase Storage / Supabase Storage 上传 403——IAM / 签名 URL / bucket 策略。
URL / anon key undefined——宿主 env / 前缀 / 缓存。
Supabase 表有 100 条数据,前端查询返回空数组也不报错——这是 RLS 默认 enabled + 无 policy = deny all 的静默拦截。本文按命中率给四类原因和 policy 模板。
提供方说发了,你的端点没收到——通常是端点访问性 / URL / 状态码。