Plataformas como Quora, Imgur y Giphy. Servicios y aplicaciones como Slack, Twitch y Airbnb. Webs de noticias como Business Insider y Gizmodo estuvieron caídas durante horas el martes (y en especial sus imágenes, alojadas en los servidores de Amazon S3). ¿El motivo? Un simple typo.
|
etiquetas: comando , amazon , programador , fallo , caido , servicio , nube
En este caso parece que un crecimiento demasiado acelerado ha creado una arquitectura poco resistente a fallos. Y eso no es problema del operador, administrador, etc. porque las artquitecturas tienen que diseñarse para que sean resistentes al fallo humano que, inevitablemente, va a ocurrir.
Dios mío, llévame pronto.
Si tu tuvieras esos servidores la podrias cagar igual....
Está claro, olvidó el where en el delete from
- mierda! Le dado al entre antes de tiempo...
- Ya da igual, déjalo que terminé
Si no que le pregunten al de gitlab, que le paso eso hace unas semanas.
En este caso parece que un crecimiento demasiado acelerado ha creado una arquitectura poco resistente a fallos. Y eso no es problema del operador, administrador, etc. porque las artquitecturas tienen que diseñarse para que sean resistentes al fallo humano que, inevitablemente, va a ocurrir.
10 print "Manuela t kiero muxo"
20 GO TO 10.
Y recuerda... m.youtube.com/watch?v=udhd9fmOdCs
ss64.com/bash/rm.html
- Terry P
Recuerda la leyenda del primer bug es.wikipedia.org/wiki/Error_de_software#/media/File:H96566k.jpg
- Hacer la batería de test habituales
- Luego pasaremos los test buenos (no los habituales) los test buenos buenos.
- Más tarde haremos los test de esos fallos que sólo se producen cuando un equipo está en producción: Traigan a un millardo de usuarios repartidos por 4 regiones mundiales y póngalos a tocar las teclas como los monos en noche de luna llena mientras suena de fondo Kandinsky. ¿Pero Kandinsky es un pintor? Eso, eso no se lo esperarán.
- Una vez pasado esos test, haremos las pruebas de fallos que pueden surgir pero que no estaban dentro del protocolo, para ello preguntale a Paco. ¿A Paco? Si, a Paco. Que te haga una lista.
- Llama a Google, Microsoft, Oracle y que te den los fuentes de esas librerías que linkamos, estudialas y prueba cualquier posible error de aquí a los próximo 15 años.
Escribir tests no es complicado pero hay que tener el hábito
pero no una tecla.
Btw, se suponte que esto es algo excepcional y que no debería pasar en una empresa como Amazon
¡Por dios! Para eso se hacen interfaces de usuario para controlar lo que se puede hacer, cuándo, se den advertencias, incluso se requieran acciones y se envíen alertas a un superior o supervisor, etc, etc.
Lo de los comandos está bien para trastear, pero para ciertas cosas..., buff
"The Amazon Simple Storage Service (S3) team was debugging an issue causing the S3 billing system to progress more slowly than expected."
"At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. "
"Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended."
"The servers that were inadvertently removed supported two other S3 subsystems. One of these subsystems, the index subsystem, manages the metadata and location information of all S3 objects in the region."
"Removing a significant portion of the capacity caused each of these systems to require a full restart. While these subsystems were being restarted, S3 was unable to service requests. "
" While this is an operation that we have relied on to maintain our systems since the launch of S3, we have not completely restarted the index subsystem or the placement subsystem in our larger regions for many years"
"S3 has experienced massive growth over the last several years and the process of restarting these services and running the necessary safety checks to validate the integrity of the metadata took longer than expected"
"The placement subsystem began recovery when the index subsystem was functional and finished recovery at 1:54PM PST."
"We are making several changes as a result of this operational event."
Decir que el desastre fue causado por un typo, es como decir que el accidente de Spanair fue por culpa del piloto. Jamás de los jamases la causa es única.
Menos mal que Amazon tiene claro que tiene que hacer varios cambios en la operativa.
A ver, si con analogias lo pillas mejor.
Aparte, es que ¿internet son solo las webs? Joder, pues se ve que si se caen las webs, yo no puedo hacer nada....
EDIT: #68 ha sido más rápido
rm - ¿Borrar el fichero regular "passwords.txt"? (s/n)
Sabes que eso es la definicion de sensacionalismo ¿verdad?
En todo caso no sería sensacionalista si pusiesen "parte importante de la infraestructura viaria madrileña."
Y no, no me contradigo. Que deje de funcionar unas cuantas webs, no es "buena parte de internet", igual que que deje de funcionar una via, no es una buena parte de la infraestructura viaria española.
Ahora solo te queda mirar cómo el resto de la gente le vota negativo con la esperanza de que la descarte y ganar un poco de karma.
Ahí tienes un ejemplo de para qué sirve el karma.
Y tras días de búsqueda descubrí que había una línea en la que había escrito un "0" en lugar de una "o" mira, para volverse loco.
Que no todo el mundo gira en torno a "Madrid" (pongasé ahí lo que se quiera, como si quieres poner ombligo).
"# rm -fr /
rm: es peligroso operar recursivamente sobre '/'
rm: utilice --no-preserve-root para saltarse esta medida de seguridad"
Como puedes ver, estaba como root al intentar el borrado recursivo del raíz del sistema. En la imagen adjunta puedes ver el comando y lo que responde rm.
Como te indica #63, el preserve-root no es para el directorio personal del usuario root, se refiere al raíz del sistema de ficheros("/").
Yo voto noticias en karma negativo si me interesan. De lo que sí me di cuenta hace años es que si se vota indiscriminadamente se acaba el karma (menos de 6 creo que fué) y no deja votar. Y como le he cogido vicio a eso de votar lo que me gusta me cuido un poco más.
Votar negativa una noticia creo que lo he hecho un par de veces. Algún caso muy insultante, no recuerdo. No le veo mucho sentido a eso en general.
Te pregunta si quieres hacer lo que le has dicho que haga.
El ejemplo sería si en vez de preguntarme eso me dijera que si borro ese fichero va a repercutir en A, B y C. Y si ya nos ponemos más exquisitos que se necesita que esa operación tendrá que ser validada por tal operador para hacerla efectiva.
Pero tú mismo, don erre que erre.
Ahí no use "sudo" porque directamente pasé a root con "su"(ademas de que nunca tengo "sudo" instalado).
Yo creía que el sistema estaba preparado para absorber ese tipo de ataque... se conoce que no.
Un consejo: es mejor prevenir que pwnear, en este caso al $luser que haga experimentos.