Un ingeniero de control de calidad entra en un bar. Pide una cerveza. Pide 0 cervezas. Pide 99999999999 cervezas. Pide un lagarto. Pide -1 cervezas. Pide una ueicbksjdhd.
El primer cliente real entra y pregunta dónde está el baño. El bar estalla en llamas, matando a todos.
@Bruiser@Carme La verdad es que está todo superoptimizado, pero hay cosas legacy ahora mismo están fallando, bien porque hay más tráfico sobre ciertas partes (Bots parseando URLs) o bien porque las tablas están más creciditas y las consultas se van volviendo más pesadas.
@Bruiser@Carme Sí, lo tenemos como lo tenía Galli. En AWS, con un balanceador y un autoescalado. Ahora mismo hay tres instancias balanceadas e imagino que a lo largo de la noche bajará a 2 y en los días de semana, a la hora punta, sube a 5. Pero, como ya he dicho, es un problema de sobrecarga en la DB en una de las consultas pesadas que tengo que pulir. Seguramenta haya algún bot parseando todos los links de menéame y en momentos puntuales nos pone la base de datos a bailar.
@kutto@Bruiser@Carme Un despliegue en un sistema sin monitorizar adecuadamente justo antes de apagar el ordenador es una locura. Aunque digo una obviedad.
Meneame es un sistema sencillo, no tiene tantas cosas que probar para que llegado el caso no se pueda hacer manualmente en muy poco tiempo.
Caso peor, pues leer el nótame donde vas a tener los primeros reportes al momento de que el fallo empiece a producirse.
@ccguy@Bruiser@Carme aunque no te lo creas sí hacemos unas pruebas que parece que se nos han quedado escasas por el fallo de una llamada asíncrona que se encarga de obtener los comentarios en la vista de story. Hacemos unas pruebas básicas como cargar el index, la cola de nuevas, una story y un perfil de usuario. Imagino que en el momento de las pruebas la máquina todavía no estaba sobrecargada y respondía perfectamente. Luego cerré el chiringo.
Llevaría algo más de 10 segundos probar todo menéame en las dos versiones, api, etc... Estamos montando un sistema de monitorización y alarmas para evitar no percatarnos de ciertos errores, automatizando medidas de corrección en un primer nivel. También tenemos previsto montar un sistema de automatizado de testing aplicado en la integración continua.
@Bruiser@Carme No sé en que huso horario te encuentras. Durante la tarde de ayer (hora española) hubo errores (entre las 21 y las 23 aprox.) derivados de sobrecarga en la base de datos, no por cambios a producción como supones erróneamente.
Durante esta mañana hemos vuelto a tener sobrecarga y hemos intentando desviar las consultas que consideramos más conflictivas a una máquina secundaria para que no influyese en la página principal lo que provocó sobrecarga en esta segunda máquina que propició los errores en la carga de los comentarios. Ahora mismo he anulado esta consulta para revisarla y optimizarla el lunes con calma.
@Bruiser@kutto@Carme Cagadas en producción pasan en todas partes alguna vez, lo que no me explico que se ponga código nuevo y una vez desplegado no se compruebe que no ha roto nada. Porque joder, no hablamos de un caso especial que sólo ve el usuario que está con Netscape 4 si conecta de noche desde Galicia... es que no funcionaban los comentarios para nadie. 10 segundos se tarda en ver que hay algo roto...
@Bruiser@Carme Sí hemos tenido problemas de sobrecarga en la base de datos, pero han sido problemas puntuales. "lleva el sitio caído desde ayer con un error 500" me parece un poco exagerado.
El primer cliente real entra y pregunta dónde está el baño. El bar estalla en llamas, matando a todos.
twitter.com/brenankeller/status/1068615953989087232
CC @kutto @ccguy @Bruiser @Carme
¿Qué problema te inquieta con las DB's?
@kutto @Carme
Meneame es un sistema sencillo, no tiene tantas cosas que probar para que llegado el caso no se pueda hacer manualmente en muy poco tiempo.
Caso peor, pues leer el nótame donde vas a tener los primeros reportes al momento de que el fallo empiece a producirse.
Llevaría algo más de 10 segundos probar todo menéame en las dos versiones, api, etc... Estamos montando un sistema de monitorización y alarmas para evitar no percatarnos de ciertos errores, automatizando medidas de corrección en un primer nivel. También tenemos previsto montar un sistema de automatizado de testing aplicado en la integración continua.
Durante esta mañana hemos vuelto a tener sobrecarga y hemos intentando desviar las consultas que consideramos más conflictivas a una máquina secundaria para que no influyese en la página principal lo que provocó sobrecarga en esta segunda máquina que propició los errores en la carga de los comentarios. Ahora mismo he anulado esta consulta para revisarla y optimizarla el lunes con calma.
(Año de independencia de colonias británicas)