Prezados clientes,

Optamos sempre por operar com total transparência, e por isso compartilhamos os detalhes do que ocorreu hoje.

Recebemos do nosso data center o aviso de uma manutenção programada para a madrugada de 14 de novembro, com início após 00h01 e previsão de término às 4h. A janela era padrão, por isso não houve notificação aos clientes — manutenções desse tipo são rotineiras e também fazem parte do nosso próprio calendário interno.

Por volta de 00h30, os serviços de fato saíram do ar, como esperado. O problema começou quando, já às 6h da manhã, identificamos que tudo continuava indisponível. Acionamos imediatamente o suporte do data center, que informou que a manutenção já havia sido concluída e que o time de redes estava investigando a causa.

Pouco antes das 7h, veio a confirmação: havia um problema interno no data center, impactando outros clientes além de nós.

Durante essa janela, observamos um comportamento curioso: algumas operadoras, como Claro, Vivo, Algar e até Starlink, conseguiam acessar nossos serviços normalmente. Outras, principalmente as fortemente dependentes do PTT/IX-SP, continuavam sem rota até nós. Isso reforçou que o incidente estava relacionado ao ambiente de rede deles.

Até aproximadamente 10h30 seguimos pressionando por uma solução e por uma previsão concreta. Não recebemos prazos. Somente às 11:15h percebemos a normalização do tráfego, ainda sem confirmação oficial do data center. Podendo ocorrer novas instabilidades enquanto eles não oficializam.

Como ficamos várias horas fora do ar em pleno horário comercial, é natural que alguns clientes percebam lentidão momentânea no envio e recebimento de e-mails, devido à fila acumulada tanto em nossos servidores quanto em provedores externos. Essa fila se ajusta automaticamente em curto prazo.

Seguimos monitorando tudo de perto. Caso recebamos novas informações técnicas, atualizaremos este post.

Pedimos desculpas pelo transtorno. Sabemos o quanto esse tipo de indisponibilidade preocupa e impacta operações.

Para contextualizar: há mais de dois anos (veja https://specialist.srv.br/specialist-linux-solutions-reforca-infraestrutura-com-novos-servidores-em-data-center-da-eveo-e-amazonaws/) migramos de nosso antigo data center próprio — onde controlávamos toda a infraestrutura física e lógica (energia, nobreaks, gerador, climatização, antincêndio, redundâncias, links, BGP, switches, cabeamento) — para um data center profissional, visando ampliar capacidade e escala. Nessa nova arquitetura, toda a infraestrutura interna dos servidores é gerenciada por nós, mas tudo que envolve rede física, roteamento, switches e links é totalmente dependente do data center. Nem sempre conseguimos obter, em tempo real, um diagnóstico técnico detalhado do que ocorre do lado deles.

Agradecemos a compreensão de todos. Continuamos comprometidos em entregar estabilidade, transparência e melhoria contínua.

Atenciosamente,
Specialist Linux Solutions / Alexandre Fonceca

Editado 13:40

Após as 11h30, os serviços haviam retornado, porém identificamos outro impacto: clientes e servidores fora do Brasil enfrentavam dificuldade para alcançar nossa infraestrutura. Isso afetava diretamente o fluxo de e-mails internacionais. Mesmo quem acessava normalmente nossos serviços no Brasil podia enfrentar falhas ao enviar mensagens para endereços hospedados no exterior, ou ao receber e-mails vindos de fora. Em muitos casos, as mensagens ficavam retidas em fila; em outros, já retornavam erro de destino inalcançável.

A estabilidade completa foi restabelecida às 13h30. Continuamos aguardando uma posição oficial da EVEO/Cirion sobre o que levou a esse problema de roteamento extremamente grave, originado por uma manutenção mal executada e sem validações adequadas no ambiente deles.

Relacionado

Compartilhe isso: