变异测试需要跑4小时。团队到底怎么在CI里用它？

如果你的变异测试套件需要跑四个小时，恭喜你。你证实了大家早就怀疑的一件事：你的测试套件存在漏洞。

你不可能每次 push 都到 CI 里跑这个。没有哪个团队会这么干。问题不在于你能否承受每次提交花四小时，而在于你能否承受带着“测试通过但实际上什么也没验证”的代码上线。

100% 代码覆盖率只是一个虚荣指标

代码覆盖率衡量的是测试执行过程中覆盖了哪些行。它并不能衡量这些行是否被正确地测试。

一条测试可以执行某行代码，却没有任何有意义的断言，仍然被算作已覆盖。变异测试通过对你的代码做微小改动、运行测试并检查是否失败来解决这个问题。如果代码被故意破坏后测试依然通过，那这条测试就毫无价值。

问题在于规模。一个中等规模的 JavaScript 项目，一万行代码、五百条测试，可能会产生八千个变异体。针对每个变异体都跑一遍完整测试套件，计算成本非常高。在典型的 CI runner 上，这就是你四小时耗时的来源。

每次提交都跑完整套件根本不现实。但这并不意味着你要彻底放弃变异测试。

增量变异测试是唯一可行的方案

现代变异测试工具支持增量分析。它们不会对整个代码库进行变异，而只对当前 PR 中发生变更的代码进行变异。

对于一个典型的、改动约 200 行的 PR，工具可能会生成 40 到 80 个变异体。只针对这些变异体运行相关的测试子集，只需要几分钟，而不是几小时。这就是团队真正在 CI 中使用变异测试的方式。

StrykerJS 是最广泛使用的 JavaScript 变异测试框架之一，它通过 incremental 选项支持增量模式。它会将变异结果存储在 incremental.json 文件中，并且只对变更过的文件重新分析。

下面是一个为增量 CI 运行配置的最简 stryker.conf.json：

{
  "packageManager": "npm",
  "reporters": ["html", "clear-text", "json"],
  "testRunner": "jest",
  "coverageAnalysis": "perTest",
  "incremental": true,
  "incrementalFile": "reports/stryker-incremental.json",
  "mutate": [
    "src/**/*.js",
    "!src/**/*.test.js",
    "!src/**/__tests__/**"
  ],
  "thresholds": {
    "high": 80,
    "low": 60,
    "break": 50
  }
}

coverageAnalysis: perTest 这个设置至关重要。它告诉 Stryker 只运行那些覆盖了被变异文件的测试，而不是整个套件。仅此一项就能将运行时间降低一个数量级。

thresholds 块定义了构建何时失败。在这个示例中，变异分数低于 50% 会阻断 CI 流水线。50% 到 60% 之间会发出警告。高于 80% 则为通过。

三种真正可行的 CI 模式

成功使用变异测试的团队不会试图像跑单元测试那样去跑它。他们采用以下三种模式之一。

在 main 分支上夜间全量运行。 完整的变异测试套件每天运行一次，通常在夜间。结果会发布到 dashboard 并持续追踪。这能在不阻塞日常开发的情况下发现系统性的测试质量问题。团队关注的是趋势，而不是单个分数。

在 PR 上进行增量运行。 只有变更过的文件会被变异。CI 任务会给 PR 流水线增加 3 到 8 分钟。如果变更代码的变异分数低于阈值，PR 就会被阻断。这正是变异测试发挥价值的地方：在新代码进入代码库的那一刻。

在重大发布前的预发布关卡。 有些团队在发布到生产环境或发布新版本之前，会运行一次完整的变异分析。它被当作一个质量检查点，类似于安全审计或性能回归测试。不是每次发布都跑，而是那些重要的发布。

获得最大价值的团队会把前两种模式结合起来。夜间全量运行追踪整个代码库的健康状况。PR 增量运行则对新代码强制执行质量标准。

变异分数不是目标

这是变异测试变得“政治危险”的地方。如果你公布一个团队范围的变异分数，并把它和绩效评估挂钩，工程师就会针对这个指标进行优化。

他们会编写一些能杀死变异体但并没有测试实际行为的测试。他们会争辩说，等价变异体——即与原始代码语义完全相同的变异——应该被排除在评分之外。他们会花数小时调整阈值，而不是写有用的测试。

变异测试是一种诊断工具，不是排行榜。分数是一个值得调查的信号，而不是一个必须达到的目标。

更有用的做法是追踪变异分数随时间变化的趋势，并把新代码上的低分当作一次对话的开端。“这个 PR 引入了 12 个变异体，但只有 4 个被杀死。我们来看看缺了什么。”这比一个显示整个仓库 73% 的 dashboard 要有价值得多。

一个可用的 GitHub Actions 工作流

下面是一个可用于生产的 GitHub Actions 工作流，它在 PR 上运行增量变异测试，并在多次运行之间保存增量状态。

name: Mutation Testing

on:
  pull_request:
    branches: [main]

jobs:
  stryker:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
        with:
          fetch-depth: 0

      - uses: actions/setup-node@v4
        with:
          node-version: 22
          cache: "npm"

      - name: Install dependencies
        run: npm ci

      - name: Download previous incremental report
        uses: actions/download-artifact@v4
        with:
          name: stryker-incremental
          path: reports/
        continue-on-error: true

      - name: Run Stryker (incremental)
        run: npx stryker run

      - name: Upload incremental report for next run
        uses: actions/upload-artifact@v4
        with:
          name: stryker-incremental
          path: reports/stryker-incremental.json
        if: always()

关键细节在于 fetch-depth: 0。Stryker 需要完整的 Git 历史才能判断 PR 分支和目标分支之间哪些文件发生了变更。没有它，增量模式会回退到全量运行。

工作流会在运行前下载之前的 stryker-incremental.json artifact。如果该 artifact 不存在，第一次运行实际上就是一次全量分析。后续运行会使用缓存的结果。

上传步骤中的 if: always() 确保即使变异测试任务因阈值突破而失败，增量状态也会被保存。没有这一步，下一个 PR 就会从头开始。

等价变异体仍然是个问题

没有任何变异测试工具能可靠地检测出等价变异体。它们是指改变了代码语法但未改变语义的变异。一个经典例子是在满足交换律的运算中，将 a = b + c 替换为 a = c + b。从技术上看这个变异是不同的，但行为完全一致。

等价变异体会浪费 CI 时间并让工程师感到沮丧。目前的最佳实践是通过工具特定的配置进行手动排除。Stryker 允许你忽略特定的 mutator 或文件。Java 的 PIT 支持 excludedMethods 和 excludedClasses。

没有完美的解决方案。使用变异测试的团队会接受一定程度的噪音，并定期审查他们的排除列表。

你的团队值得投入吗？

变异测试不是免费的。它需要 CI 算力、工具配置，以及持续维护阈值和排除项。对于原型项目或只有两个工程师的项目来说，它属于过度设计。

当你拥有一个足够大的代码库，以至于测试质量会在缺乏监督的情况下下降，并且团队规模足够大，不是每个人都会仔细审查每个 PR 时，它就值得投入了。如果你曾经在生产环境中发现一个本应由测试捕获的 bug，而测试确实存在但实际上没有任何断言，那么变异测试本可以抓住它。

先从你最核心服务的 PR 增量运行开始。追踪一个月的趋势。如果数据告诉你一些有用的信息，再扩展范围。如果没有，你也就损失了几分钟的 CI 时间，而不是四小时。

对于刚入门的团队，Stryker handbook 提供了针对 JavaScript、C# 和 Scala 的平台特定指南。对于 JVM 项目，PIT 仍然是标准选择。两者都原生支持增量分析。