Docker用了3年，部署翻车姿势还是和实习生一模一样|docker|内存|命令提示符|磁盘

全球超过1300万个活跃容器每天在跑，但生产环境崩溃的锅，80%还是那几样老问题。你以为熟练了，其实只是熟练地踩坑。

「我本地明明是好的」——这句话值多少钱？

2023年某电商平台大促，凌晨2点17分，支付链路突然雪崩。值班工程师盯着监控面板，CPU、内存、网络全绿，唯独容器健康检查疯狂报错。根因？开发环境用的Docker Desktop最新版，生产机还跑着18个月前的运行时，一个libc版本差异让SSL握手直接超时。

修复花了47分钟，订单流失估算在八位数。事后复盘，CTO的原话是：「我们不是在用容器，是在用容器的幻觉。」

这种幻觉很普遍。Docker把环境打包得漂漂亮亮，让人误以为「镜像一致=行为一致」。但镜像只是静态快照，底层的容器运行时（Container Runtime）、内核版本、系统调用实现，全是变量。本地跑得好好的代码，到生产环境遇到不同的seccomp（安全计算模式）配置，直接Permission Denied，这种事每周都在各大公司的故障群里上演。

更隐蔽的是资源限制的幻觉。开发者本地笔记本16核32G，随手写个docker run不带内存限制。上线后同样配置扔到K8s集群，QoS（服务质量等级）设为Burstable，隔壁Pod一挤兑，OOM Killer（内存溢出终止程序）进场，服务重启时间刚好撞上流量高峰。AWS去年公布的客户故障分析里，容器内存配置不当导致的驱逐事件，占所有弹性计算故障的34%。

健康检查：从摆设到凶器

Dockerfile里抄来的HEALTHCHECK指令，很多人根本没想明白逻辑。某金融科技公司去年的事故特别典型：他们的健康检查是curl本地8080端口，返回200就算健康。但服务有个隐藏bug，内存泄漏到80%时，HTTP响应延迟从50ms飙到8秒，curl还在耐心等，K8s调度器一看「健康」，继续把流量往里灌。等最终超时崩溃，已经积累了上千个挂起的连接，雪崩不可避免。

正确的健康检查应该分层。存活探针（Liveness Probe）只问「你还活着吗」，就绪探针（Readiness Probe）要问「你能干活吗」。但现实中，大量配置把两者写成一样的，或者干脆只配一个。Google SRE手册里有个数据：配置双探针的服务，故障自愈时间平均缩短62%。知道这个的人不少，照做的人不多。

镜像层缓存是另一个暗雷。Docker build的层缓存能省时间，但也能埋雷。某团队的基础镜像从ubuntu:20.04改成ubuntu:22.04，以为重新构建了就行，结果上层应用镜像的Dockerfile写的是FROM mybase:latest，CI系统没清缓存，拉的还是旧版基础镜像。上线后OpenSSL版本不匹配，TLS 1.3握手失败，全网HTTPS中断22分钟。这种「缓存投毒」问题，Docker官方Issue区有400多条讨论，解决方案从--no-cache到多阶段构建都有，但执行到位需要整个CI/CD链路的配合。

网络命名空间：看不见的战场

容器网络是最容易「看起来懂了」的领域。bridge、host、overlay、macvlan，模式背得熟，真出问题就抓瞎。2024年初，某视频平台的直播推流服务出现诡异延迟：同机房两台容器，ping延迟不到1ms，但应用层RTT（往返时间）偶尔跳到200ms以上。最后定位到Docker的bridge模式默认启用了iptables（防火墙规则）的conntrack（连接追踪），高并发短连接场景下，nf_conntrack表满，新连接被DROP，应用重传等到超时。

解决方法是换host网络，或者调内核参数。但问题的根源，是团队没人知道默认bridge模式的性能边界。Docker文档里写得清楚，但谁看呢？大多数人到出事了才第一次打开那页。

日志处理是最后一个盲区。容器stdout/stderr默认写到JSON文件，没配rotate（轮转策略）的话，磁盘写满只是时间问题。某SaaS公司的监控显示，容器节点磁盘告警里，/var/lib/docker/overlay2占用的增长曲线，和业务的日志量曲线高度吻合——他们根本没配日志驱动，用的默认json-file，10G磁盘三天打满。换成fluentd或者直接输出到外部收集器，这个问题本可以避免，但「能跑就行」的心态让配置债越积越多。

从熟练到精通，差的不只是时间

Docker的易用性是个双刃剑。它把底层复杂度包起来，让新手快速出活，也让老手产生「我已经懂了」的错觉。真正的分水岭，是开始追问「如果这层抽象失效了怎么办」。

Netflix的容器平台团队有个内部测试：随机杀掉生产环境的容器，看服务恢复时间。这个混沌工程（Chaos Engineering）实践逼他们搞清了每个故障域的边界。普通团队没这个条件，但至少可以做到：本地开发和生产用完全一致的运行时版本，健康检查按业务语义设计，网络模式选型时把性能基准测一遍，日志和监控当成一等公民来配置。

这些都不难，难的是承认「我每天用，但未必真懂」。容器技术发展了十年，生产环境的坑也挖了十年，地图早就公开了，走不走得出来，看的是细节执行力。

你们团队的Dockerfile，最近一次全面review是什么时候？