Un petit mot sur ce capteur et son comportement avec une illustration du propos sur un incident détecté.


A un instant T, on remarque dans notre outil de monitoring que ce le capteur SNMP CPU Load d'un serveur Linux passe en erreur. Effectivement, visiblement 100% de charge sur les deux cœurs de la machine.



Il se trouve que c'est un serveur virtualisé donc on jette un petit coup d’œil aux graphes disponibles via l'hyperviseur:


En première lecture, on a l'impression que tout va bien. Hors, on a simultanément des retours utilisateurs prouvant que le service fourni par la machine est dégradé...


Un top sur le guest OS et on lit ceci:


Peu de %used...

C'est là où il faut être vigilant, on constate que c'est le %wait qui est à presque 100%. Et c'est bien là le problème. En temps normal, on devrait un valeur élevée pour le %idle.

Le capteur avait une bonne raison de nous alerter.


Pour en trouver la source je vous invite à parcourir le post de Benjamin Cane très bien écrit sur le sujet : http://bencane.com/2012/08/06/troubleshooting-high-io-wait-in-linux/


Dans notre cas, un process java était la source du dysfonctionnement.



Nicolas Jançon

Co-fondateur et associé chez Sensor Factory