Mutation testing leva 4 horas. Como os times realmente usam isso em CI?

Se sua suite de mutation testing leva quatro horas para rodar, parabéns. Você provou o que todo mundo já suspeitava: sua test suite tem lacunas.

Você não vai executar isso em CI a cada push. Nenhum time faz isso. A questão não é se você pode pagar quatro horas por commit. É se você pode se dar ao luxo de entregar código com testes que passam, mas que na verdade não verificam nada.

100% de code coverage é uma metric de vaidade

Code coverage mede quais linhas foram executadas durante os testes. Não mede se essas linhas foram testadas corretamente.

Um teste pode executar uma linha, não fazer nenhuma asserção significativa, e ainda contar como coberto. Mutation testing corrige isso fazendo pequenas alterações no seu código, executando os testes, e verificando se eles falham. Se um teste passa depois que o código foi deliberadamente quebrado, aquele teste não vale nada.

O problema é escala. Um projeto JavaScript de tamanho médio com 10.000 linhas de código e 500 testes pode gerar 8.000 mutações. Executar a suite completa de testes contra cada mutação é computacionalmente caro. Em um runner de CI típico, é daí que vêm suas quatro horas.

Executar a suite completa a cada commit é inviável. Mas isso não significa que você pule o mutation testing por completo.

Mutation testing incremental é a única abordagem prática

Ferramentas modernas de mutation testing suportam análise incremental. Em vez de mutar a base de código inteira, elas mutam apenas o código que mudou no pull request atual.

Para um PR típico com 200 linhas de código alteradas, a ferramenta pode gerar de 40 a 80 mutações. Executar o subconjunto relevante de testes contra essas mutações leva minutos, não horas. É assim que os times realmente usam mutation testing em CI.

StrykerJS, um dos frameworks de mutation testing JavaScript mais usados, suporta modo incremental através da opção incremental. Ele armazena os resultados das mutações em um arquivo incremental.json e só reanalisa os arquivos alterados.

Aqui está uma configuração mínima de stryker.conf.json para execuções incrementais em CI:

{
  "packageManager": "npm",
  "reporters": ["html", "clear-text", "json"],
  "testRunner": "jest",
  "coverageAnalysis": "perTest",
  "incremental": true,
  "incrementalFile": "reports/stryker-incremental.json",
  "mutate": [
    "src/**/*.js",
    "!src/**/*.test.js",
    "!src/**/__tests__/**"
  ],
  "thresholds": {
    "high": 80,
    "low": 60,
    "break": 50
  }
}

A configuração coverageAnalysis: perTest é crítica. Ela diz ao Stryker para executar apenas os testes que cobrem cada arquivo mutado, não a suite inteira. Isso sozinho pode reduzir o tempo de execução em uma ordem de magnitude.

O bloco thresholds define quando o build falha. Neste exemplo, uma mutation score abaixo de 50% quebra o pipeline de CI. Scores entre 50% e 60% produzem um aviso. Acima de 80% está verde.

Três padrões de CI que realmente funcionam

Times que usam mutation testing com sucesso não tentam executá-lo como testes unitários. Eles usam um de três padrões.

Execuções completas noturnas na branch principal. A suite completa de mutation testing roda uma vez por dia, geralmente durante a noite. Os resultados são publicados em um dashboard e acompanhados ao longo do tempo. Isso captura problemas sistêmicos de qualidade de teste sem bloquear o desenvolvimento do dia a dia. O time analisa tendências, não scores individuais.

Execuções incrementais em pull requests. Apenas os arquivos alterados são mutados. O job de CI adiciona de 3 a 8 minutos ao pipeline de PR. Se a mutation score do código alterado cair abaixo do threshold, o PR é bloqueado. É aqui que o mutation testing captura seu valor: no ponto em que o novo código entra na base de código.

Gates de pré-release antes de deployments importantes. Alguns times executam uma análise completa de mutation testing antes de enviar para produção ou antes de lançar uma nova versão. É tratado como um checkpoint de qualidade, similar a um security audit ou teste de regressão de performance. Não em todo release, mas nos que importam.

Os times que mais extraem valor misturam os dois primeiros padrões. Execuções noturnas acompanham a saúde da base de código inteira. Execuções incrementais em PRs aplicam qualidade no novo código.

A mutation score não é um alvo

Aqui é onde o mutation testing fica politicamente perigoso. Se você publicar uma mutation score para todo o time e ligá-la a avaliações de desempenho, os engenheiros vão otimizar para a metric.

Eles vão escrever testes que matam mutações sem testar o comportamento real. Eles vão argumentar que mutantes equivalentes, semanticamente idênticos ao código original, deveriam ser excluídos do score. Eles vão passar horas ajustando thresholds em vez de escrever testes úteis.

Mutation testing é uma ferramenta de diagnóstico, não um ranking. O score é um sinal para investigar, não um alvo para atingir.

Uma abordagem mais útil é acompanhar a tendência da mutation score ao longo do tempo e tratar scores baixos em código novo como um ponto de partida para conversa. “Este PR introduz 12 mutações e apenas 4 são mortas. Vamos ver o que está faltando.” Isso é infinitamente mais valioso do que um dashboard mostrando 73% em todo o repository.

Um workflow do GitHub Actions funcional

Abaixo está um workflow do GitHub Actions pronto para produção que executa mutation testing incremental em pull requests e armazena o estado incremental entre execuções.

name: Mutation Testing

on:
  pull_request:
    branches: [main]

jobs:
  stryker:
    runs-on: ubuntu-latest
    steps:
      - uses: actions/checkout@v4
        with:
          fetch-depth: 0

      - uses: actions/setup-node@v4
        with:
          node-version: 22
          cache: "npm"

      - name: Install dependencies
        run: npm ci

      - name: Download previous incremental report
        uses: actions/download-artifact@v4
        with:
          name: stryker-incremental
          path: reports/
        continue-on-error: true

      - name: Run Stryker (incremental)
        run: npx stryker run

      - name: Upload incremental report for next run
        uses: actions/upload-artifact@v4
        with:
          name: stryker-incremental
          path: reports/stryker-incremental.json
        if: always()

O detalhe chave é fetch-depth: 0. O Stryker precisa do histórico completo do Git para determinar quais arquivos mudaram entre a branch do PR e a branch de destino. Sem isso, o modo incremental recai para uma execução completa.

O workflow faz o download do artefato stryker-incremental.json anterior antes de executar. Se o artefato não existir, a primeira execução é efetivamente uma análise completa. Execuções subsequentes usam os resultados em cache.

O if: always() na etapa de upload garante que o estado incremental seja salvo mesmo que o job de mutation testing falhe devido a uma violação de threshold. Sem isso, o próximo PR começa do zero.

Mutantes equivalentes ainda são um problema

Nenhuma ferramenta de mutation testing pode detectar mutantes equivalentes de forma confiável. Esses são mutações que alteram a sintaxe do código, mas não sua semântica. Um exemplo clássico é substituir a = b + c por a = c + b em uma operação comutativa. A mutação é tecnicamente diferente, mas o comportamento é idêntico.

Mutantes equivalentes desperdiçam tempo de CI e frustram engenheiros. O estado da arte atual é a exclusão manual através de configuração específica da ferramenta. O Stryker permite que você ignore mutadores específicos ou arquivos. O PIT para Java suporta excludedMethods e excludedClasses.

Não existe solução perfeita. Times que usam mutation testing aceitam um nível basal de ruído e revisam periodicamente suas listas de exclusão.

Sua equipe deveria se preocupar com isso?

Mutation testing não é gratuito. Ele exige computação de CI, configuração da ferramenta e manutenção contínua de thresholds e exclusões. É exagero para um protótipo ou um projeto com dois engenheiros.

Ele passa a valer a pena quando você tem uma base de código grande o suficiente para que a qualidade dos testes degrade sem supervisão, e um time grande o suficiente para que nem todos revisem cada PR em detalhes. Se você já encontrou um bug em produção que deveria ter sido pego por um teste, e o teste existe mas na verdade não faz nenhuma asserção, o mutation testing o teria pego.

Comece com execuções incrementais em PRs para o seu serviço mais crítico. Acompanhe a tendência por um mês. Se os números te dizem algo útil, expanda. Se não, você perdeu alguns minutos de CI, não quatro horas.

Para times que estão começando, o Stryker handbook tem guias específicos por plataforma para JavaScript, C# e Scala. Para projetos JVM, o PIT continua sendo o padrão. Ambos suportam análise incremental out of the box.