tux_system

La historia comienza con un mensaje en un chat con el siguiente mensaje:

“Our k8s master servers are rebooting randomly every day!”

Ósea que:

“Nuestros servidores k8s se reinician aleatoriamente todos los días!”

Éste anuncio tuvo un lado bueno (si es que se puede decir) y uno malo (como todo en la vida no?). El lado bueno, los clusters manejaron este desafortunado evento sin problemas, incluso cuando dos de cada cinco servidores se estaban reiniciando al mismo tiempo. El lado malo en cambio es que no se recibió ningún alerta.

No había información sobre qué podría ser la causa de esto. Entonces se pensó comenzar una investigación mirando las estadísticas del sistema. El intervalo de extracción de éstas estadísticas fue demasiado alto y, como resultado, éstas ocultaron información importante.

No se sabía la causa de los reinicios, pero se descubrió las dos configuraciones del kernel que son las siguientes:

* kernel.hung_task_panic = 1
* kernel.softlockup_panic = 1

Esas configuraciones instruyen al kernel a entrar en “panic” cuando una tarea se detiene o cuando ocurre un softlockup. Además, descubrimos que el kernel se reinicia automáticamente cuando ocurre un ataque “panic” porque se tiene el viejo kernel.panic = 70 en la configuración sysctl.

La combinación de disparar esto y el reinicio automático impide capturar un volcado de colapso en el mismo kernel.

A tenerlo en cuenta ya que esto fue detectado el día de la fecha, pero pueden encontrar más información en Medium.

Anuncios