Il peut arriver parfois que des utilisateurs remontent des "lenteurs" voir des coupures lors de l'accès à un serveur virtualisé. Beaucoup de type de problèmes peuvent expliquer ce genre de phénomène. Mais quand on a écarté toutes hypothèses et qu'il ne reste plus que le réseau, les ennuis commencent...


Un simple test avec iperf va permettre de valider le ressenti utilisateur. En démarrant un serveur iperf sur le serveur impacté et en lançant un test à partir d'un poste utilisateur on doit constater, si le problème vient du réseau, une perte significative de paquets et probablement un jitter important.

Attention si vous lancez le test en période de production: il ne faudrait pas saturer la bande passante du serveur !



Afficher l'image d'origine


Le même test doit être réalisé à partir de plusieurs point dans le réseau pour déterminer le noeud du problème. Il faut d'abord confirmer le problème à partir de plusieurs postes utilisateurs puis ensuite réaliser le test à partir d'autres serveurs dans un autre subnet que le serveur incriminé. Enfin à partir d'un serveur dans le même subnet.


Si le résultat n'est pas le même à partir de tous les points du réseau, le problème vient peut être des cartes réseaux de votre ESX. En effet, le teaming géré par l'ESX implique que tous les flux à destination d'un même serveur virtuel ne transitent pas forcément par la même interface. Si une des interfaces dysfonctionne, le phénomène qui semble à priori aléatoire, peut en réalité être tout à fait systématique.


Nous venons de rencontrer ce problème chez un client. Une des interfaces se négociait à 10Mb/s au lieu d'1Gb/s. Les interfaces réseaux n'étant pas supervisées au delà du débit, aucun métrique n'aurait permis de détecter le problème. Il est donc important de surveiller systématiquement les erreurs sur ces interfaces et mieux: superviser la vitesse négociée et triggerer une notification en cas de changement.




Compte tenu de la densité de serveurs qu'apportent les hyperviseurs, et donc de problèmes, il vaut mieux ne pas faire l'économie de ces capteurs !


Pour terminer notre anecdote: nous pensions avoir à faire à un câble réseau défectueux. Il s'est avéré en fait que plusieurs câbles d'alimentation des serveurs avait été passés dans la gouttière des câbles réseaux entraînant des perturbations électromagnétiques, seule cause de beaucoup d'ennuis...