Coinbase detalha falha na AWS após interrupção

Falhas na infraestrutura da AWS e problemas com Kafka interromperam temporariamente as operações da Coinbase em múltiplos mercados.

A Coinbase enfrentou uma interrupção significativa em 7 de maio, afetando negociações, acesso à plataforma e atualizações de saldo. O impacto atingiu mercados à vista, derivativos, serviços institucionais (Prime) e operações internacionais por várias horas. Posteriormente, a empresa confirmou que a origem do problema envolveu uma falha no sistema de resfriamento de um data center da AWS nos Estados Unidos.

Em comunicado, a Coinbase afirmou que os fundos dos usuários permaneceram seguros durante todo o incidente e que não houve perda de dados, apesar da gravidade da interrupção.

Falhas em cascata afetaram sistemas críticos

Segundo a equipe técnica, os sistemas de monitoramento detectaram falhas em cascata nas cotações por volta das 23h50 UTC. Assim que os alertas surgiram, múltiplos incidentes críticos foram registrados, acionando protocolos emergenciais em diversas equipes de engenharia.

Conforme relatado, sistemas internos conectados à infraestrutura central começaram a falhar à medida que a temperatura aumentava em racks localizados na região us-east-1 da AWS. Como resultado, componentes essenciais sofreram degradação rápida.

Além disso, falhas de hardware atingiram sistemas ligados ao mecanismo de correspondência de ordens, responsável por processar negociações e manter os livros de ordens. Nesse contexto, apenas parte dos nós permaneceu operacional, impedindo o cluster de atingir quorum. Por consequência, as negociações foram temporariamente bloqueadas para usuários institucionais e de varejo.

Impacto nos sistemas Kafka e recuperação manual

Outro fator crítico envolveu os clusters distribuídos do Kafka, utilizados para mensageria interna. Esses sistemas processam vários terabytes de dados diariamente. Ainda assim, durante o incidente, as garantias de recuperação não funcionaram como esperado.

Como resultado, as equipes precisaram restaurar manualmente partições em novos servidores. Esse processo ampliou o tempo de recuperação e gerou atrasos adicionais em diferentes serviços.

Recuperação foi gradual e exigiu ajustes técnicos

Durante a normalização, clientes observaram atrasos na atualização de saldos, enquanto a replicação de dados via Kafka era restabelecida. Ainda assim, a empresa garantiu que os valores seriam sincronizados automaticamente após a estabilização completa dos sistemas.

Ferramentas automatizadas redistribuíram cargas de trabalho em cerca de 10 clusters Kubernetes afetados. Assim, a maioria dos serviços internos voltou a operar aproximadamente 30 minutos após o isolamento do problema.

Por outro lado, sistemas diretamente ligados ao mecanismo de negociação e à infraestrutura Kafka levaram mais tempo para se recuperar, devido à dependência de configurações específicas de hardware e armazenamento.

Reabertura dos mercados ocorreu em etapas

Após estabilizar o ambiente, a Coinbase reabriu os mercados de forma gradual. Inicialmente, as negociações foram limitadas ao modo de cancelamento de ordens, com o objetivo de permitir auditorias internas.

Em seguida, os mercados entraram em modo de leilão. Somente depois dessa fase a negociação completa foi retomada, a fim de garantir a integridade e a consistência dos dados.

Empresa reconhece fragilidade e promete melhorias

A Coinbase admitiu que parte de sua arquitetura concentrava infraestrutura crítica em uma única zona de disponibilidade. Embora existissem sistemas de contingência, os mecanismos de isolamento não funcionaram como esperado. Dessa forma, o impacto do incidente foi ampliado.

Executivos destacaram a coordenação interna durante a resposta. Segundo a empresa, as equipes seguiram protocolos de recuperação de desastres, mesmo diante das limitações impostas pela infraestrutura afetada.

Além disso, a companhia pediu desculpas aos usuários e informou que divulgará um relatório completo sobre a causa raiz nas próximas semanas, juntamente com melhorias planejadas para aumentar a confiabilidade da plataforma.

O episódio combinou falhas no resfriamento do data center, problemas no mecanismo de negociação e dificuldades na recuperação de clusters Kafka. Ainda assim, a empresa reforçou que nenhum dado foi perdido e que os fundos dos clientes permaneceram protegidos.