jedg_logo
← Volver al Blog

Análisis completo de la caída de AWS el 20 de octubre de 2025: causas, consecuencias y aprendizajes

Compartir en:

El origen del problema

La mañana del lunes 20 de octubre comenzó con normalidad para muchas empresas y usuarios en todo el mundo, pero alrededor de las 07:11 UTC los primeros indicios de un fallo se hicieron evidentes en la región US-EAST-1, el gran centro de datos de AWS en Virginia del Norte. La unidad de salud de AWS reportó aumentos de latencia y tasas de error sin precedentes para múltiples servicios. De repente, plataformas de gran uso, desde redes sociales hasta aplicaciones bancarias, comenzaron a fallar o a comportarse de forma errática.

Qué ocurrió técnicamente

Lo que al principio parecía un simple problema de rendimiento reveló pronto su verdadero alcance: un sistema interno de AWS, encargado de gestionar la resolución de nombres de dominio (DNS) para su base de datos administrada DynamoDB, presentó un fallo crítico. Los técnicos de AWS identificaron que una actualización de automatización había producido registros DNS vacíos para el servicio clave de DynamoDB, impidiendo que las solicitudes fueran correctamente dirigidas al endpoint adecuado. Esta interrupción en el proceso de traducción de nombres a direcciones IP es algo de por sí grave, pero en el ecosistema de AWS desencadenó efectos en cadena a lo largo de la infraestructura.

Una vez que DynamoDB empezó a fallar, otros sistemas —incluyendo servidores virtuales, balanceadores de carga y servicios dependientes— entraron en estado de degradación. Aunque los datos físicos permanecían intactos, el problema era que muchas aplicaciones ya no podían “encontrar” esos datos. En ese sentido, puede decirse que el fallo provocó una especie de amnesia del sistema: los recursos estaban, pero las entidades que los necesitaban no podían acceder correctamente.

Impacto global

El impacto fue amplio y diverso. Desde apps de consumo hasta servicios críticos de empresas, la interrupción dejó al descubierto la extensión de la dependencia que el mundo digital tiene respecto a un puñado de infraestructuras masivas. Usuarios de plataformas de mensajería, juegos en línea, servicios de entrega, banca y dispositivos inteligentes reportaron fallos casi simultáneos.

Aunque AWS logró restaurar la mayoría de los servicios durante el día —la compañía declaró que “todos los servicios de AWS volvieron a la normalidad” hacia la tarde del 20 de octubre— muchos clientes continuaron lidiando con colas de procesamiento, retrasos y efectos residuales que se extendieron más allá del periodo más crítico.

¿Por qué fue tan grave?

El carácter grave del incidente no sólo estuvo en su duración, sino en lo que puso de manifiesto: primera, la centralización de infraestructura clave en pocas regiones y pocos proveedores; segunda, la fragilidad que existe cuando un componente aparentemente secundario —como un sistema automatizado de DNS— se convierte en el punto de fallo de toda una cadena; y tercera, la dificultad que tienen los grandes sistemas para contener fallos internos antes de que éstos se propaguen.

La región US-EAST-1 sirve como columna vertebral de muchas plataformas: cuando falla ese nodo, aunque otras regiones sigan operando, la interconexión hace que gran parte del ecosistema “caiga” o se degrade. Asimismo, el conocimiento que se tiene de las dependencias internas muchas veces es insuficiente: muchas empresas creían tener redundancias, cuando en realidad las dependencias compartidas —bases de datos, DNS, automatización interna— las hacían vulnerables.

Lecciones clave para arquitecturas modernas

A partir de este tipo de incidentes, varios aprendizajes cobran especial relevancia. Primero, diseñar pensando en el fallo: no basta con que el sistema funcione bajo condiciones normales; debe tolerar degradaciones, interrupciones localizadas e incluso fallos de componentes internos. Esto implica probar los sistemas regularmente, simular escenarios adversos, validar rutas de degradación y asegurarse de que las dependencias mayores estén bien documentadas.

Segundo, la estrategia de redundancia debe considerar tanto la geografía (variar regiones) como el proveedor (evaluar múltiples nubes o modelos híbridos). Cuando todo depende de un solo proveedor o de una sola región, la redundancia se vuelve ilusoria.

Tercero, la supervisión y la visibilidad interna son fundamentales. No basta con monitorear la capa pública; hay que tener visibilidad de los sistemas críticos internos, de las automatizaciones que gestionan recursos, y de los cambios que se despliegan. En este caso, una actualización de automatización provocó el fallo inicial.

Por último, los negocios deben entender que una interrupción de infraestructura puede tener efectos materiales: desde pérdida de ingresos hasta daño reputacional, pasando por incidencias en servicios críticos. Preparar estrategias de continuidad, comunicación y mitigación de crisis es tan importante como la arquitectura técnica.