
La surveillance Ping est la pratique continue et automatisée consistant à envoyer des paquets de sonde réseau aux serveurs et à mesurer leurs temps de réponse pour vérifier que les hôtes sont accessibles et que les chemins réseau sont sains. Il constitue la couche la plus fondamentale de surveillance de l'infrastructure : si un serveur n'est pas accessible via le réseau, rien de ce qui est construit dessus ne fonctionnera. En suivant la latence, la perte de paquets et la gigue au fil du temps, la surveillance ping fournit une alerte précoce en cas de dégradation du réseau avant qu'elle ne dégénère en pannes au niveau des applications qui affectent les utilisateurs.
Pourquoi la surveillance Ping est importante
Des problèmes de réseau provoquent des échecs d'application
La plupart des pannes d'applications rencontrées par les utilisateurs proviennent de la couche réseau. Un serveur qui fonctionne parfaitement mais qui n'est pas accessible en raison d'un changement de routage, d'une mauvaise configuration du pare-feu ou d'un problème de FAI est fonctionnellement en panne. La surveillance Ping détecte ces défaillances au niveau de la couche réseau indépendamment des vérifications de l'état des applications, fournissant un signal distinct qui permet d'isoler les causes profondes des incidents.
Alerte précoce avant un impact visible
La dégradation du réseau se développe souvent progressivement. La latence augmente de quelques millisecondes par jour, la perte de paquets passe de 0 % à 0,5 % ou la gigue devient incohérente pendant les heures de pointe. Ces changements subtils sont initialement invisibles pour les utilisateurs mais prédisent des échecs futurs. La surveillance continue du ping suit ces tendances et alerte lorsque les métriques dépassent les seuils d'avertissement.
Vérification de la joignabilité mondiale
Un serveur peut être parfaitement accessible depuis le centre de données voisin mais totalement inaccessible depuis un autre continent en raison de problèmes de routage international, de problèmes de câbles sous-marins ou de pannes régionales du FAI. La surveillance ping multi-emplacements révèle des lacunes d'accessibilité géographique que la surveillance à point unique ne parvient pas à détecter.
Mesures de base
Latence (durée aller-retour)
La latence mesure le temps nécessaire à un paquet pour voyager de la sonde de surveillance au serveur cible et inversement, exprimé en millisecondes. Repères de référence pour l’interprétation des résultats :
- En dessous de 20 ms : Excellent – même région ou centre de données à proximité
- 20-50 ms : Bon — connexions typiques sur le même continent
- 50-100 ms : Acceptable – sauts de réseau intercontinentaux ou multiples
- 100-200 ms : Remarquable – les utilisateurs subissent des retards dans les applications interactives
- Au-dessus de 200 ms : problématique – les applications en temps réel se dégradent considérablement
Suivez les valeurs minimales, moyennes, maximales et centiles (p95, p99) plutôt que simplement les moyennes. Une bonne moyenne peut masquer de graves pics intermittents qui affectent les utilisateurs réels.
Perte de paquets
La perte de paquets est le pourcentage de paquets envoyés qui ne reçoivent jamais de réponse. Même de petites quantités provoquent une dégradation visible :
- 0% : Réseau sain
- 0,1-1 % : mineur – congestion généralement passagère
- 1-5 % : significatif – les utilisateurs remarquent une dégradation du streaming et de la VoIP
- 5-20 % : Grave – les applications deviennent peu fiables
- Au-dessus de 20 % : Critique – perte de connectivité effective
Les causes courantes incluent la congestion du réseau, les pannes matérielles, la limitation du débit du pare-feu, les problèmes de FAI et les interférences sans fil.
Gigue
La gigue est la variation de latence entre des paquets consécutifs. Une latence faible et constante est préférable à une latence moyenne faible avec une variance élevée. Une gigue supérieure à 10 ms provoque une mise en mémoire tampon dans les applications en temps réel telles que la vidéoconférence, la VoIP et les jeux en ligne. La surveillance de la gigue permet d'identifier les chemins réseau instables qui nécessitent une attention particulière.
Meilleures pratiques pour la surveillance Ping
Utiliser plusieurs emplacements de sonde
Testez à partir d’au moins 3 emplacements géographiquement répartis. Si un seul emplacement signale des problèmes tandis que d’autres affichent des résultats sains, il s’agit probablement d’un problème de réseau régional plutôt que d’une panne du serveur cible. Exiger que 2 emplacements ou plus confirment une panne avant d'alerter.
Combinez ICMP et TCP Ping
Le ping ICMP est le protocole standard, mais certains réseaux et fournisseurs de cloud filtrent ou limitent le trafic ICMP. Complétez les vérifications ICMP avec un ping TCP sur les ports ouverts connus (80, 443) pour garantir que la surveillance fonctionne même lorsque ICMP est restreint. Le ping TCP valide également que le port de service accepte les connexions, et pas seulement que l'hôte est accessible.
Définir des intervalles de vérification appropriés
Les infrastructures critiques doivent être pingées toutes les 30 à 60 secondes. Les services de support peuvent utiliser des intervalles de 2 à 5 minutes. Évitez les intervalles de plus de 5 minutes pour tout système de production : des intervalles plus longs signifient des temps de détection plus longs.
Établir des références de performances
Enregistrez les modèles typiques de latence et de perte de paquets pour chaque cible pendant les opérations normales. Utilisez ces références pour définir des seuils d’alerte intelligents qui tiennent compte des variations attendues. Un serveur qui répond normalement en 15 ms devrait alerter à 50 ms, tandis qu'une cible multicontinentale avec une ligne de base de 150 ms pourrait alerter à 250 ms.
Surveillez les deux directions lorsque cela est possible
Les chemins réseau sont asymétriques : l'itinéraire de A à B est souvent différent de B à A. Si vous avez accès aux serveurs cibles, déployez une surveillance réciproque qui teste les deux sens. Les problèmes de routage asymétrique peuvent entraîner une perte de paquets unidirectionnelle qui manque à la surveillance ping standard.
Erreurs courantes à éviter
S'appuyer uniquement sur ICMP
De nombreux pare-feu et groupes de sécurité cloud dépriorisent ou bloquent le trafic ICMP. Si votre surveillance utilise uniquement ICMP, vous risquez de constater de fausses pannes lorsque l'hôte est réellement accessible via TCP/UDP. Ayez toujours une solution de secours pour le ping TCP.
Alerte en cas de perte d'un seul paquet
Un seul paquet perdu constitue un comportement normal du réseau. Alerte sur les taux de perte de paquets soutenus sur des fenêtres temporelles (par exemple, plus de 2 % de perte sur 5 minutes) plutôt que sur les pannes de paquets individuels.
Ignorer les modèles d'heure de la journée
La congestion du réseau suit des modèles prévisibles liés aux heures d'ouverture, aux calendriers de sauvegarde et aux pics régionaux d'utilisation d'Internet. Définissez des seuils d'alerte qui tiennent compte de ces modèles pour éviter les faux positifs pendant les périodes de forte utilisation attendues.
Pas de corrélation avec les métriques d'application
La surveillance Ping vous indique si un hôte est joignable, et non si l'application qui s'y trouve fonctionne correctement. Associez toujours la surveillance des pings à des vérifications de l’état au niveau de l’application. Un hôte qui répond aux pings mais dont le processus de candidature est en panne est fonctionnellement en panne.
Cas d'utilisation
Surveillance de l'infrastructure des serveurs
Surveillez chaque serveur de production, hôte de base de données et équilibreur de charge avec des contrôles ping. L'accessibilité du réseau est la base : si l'hôte est inaccessible, aucune surveillance de niveau supérieur ne peut fonctionner.
Déploiements cloud et multi-régions
Les instances cloud peuvent perdre la connectivité réseau en raison de modifications du groupe de sécurité, de mauvaises configurations de VPC ou de problèmes de réseau côté fournisseur. La surveillance ping depuis l'extérieur du réseau du fournisseur de cloud détecte ces problèmes, que la surveillance interne au fournisseur peut manquer.
Connectivité des bureaux distants et des succursales
Les organisations disposant de bureaux distribués doivent vérifier que les liaisons WAN, les tunnels VPN et les connexions SD-WAN restent sains. La surveillance Ping offre une visibilité continue sur la qualité des liens sur tous les sites.
Suivi des performances des FAI et des CDN
Surveillez les performances réseau de vos périphéries CDN et de vos liaisons FAI pour vérifier que les SLA des fournisseurs sont respectés. Les données historiques de latence et de perte soutiennent les évaluations des performances des fournisseurs et les négociations contractuelles.
Comment UpScanX gère la surveillance des pings
UpScanX effectue une surveillance des pings ICMP et TCP à partir de plus de 15 emplacements dans le monde avec des intervalles de vérification aussi fréquents que toutes les 30 secondes. Chaque vérification enregistre le temps d'aller-retour, la perte de paquets et les mesures de gigue. La plateforme établit des références de performances automatiques et des alertes lorsque la latence ou la perte de paquets dépasse les seuils configurés, confirmés à partir de plusieurs emplacements pour éliminer les faux positifs.
Les tableaux de bord historiques des performances affichent les tendances de latence, les modèles de perte de paquets et les comparaisons des performances géographiques au fil du temps. Les alertes sont envoyées par e-mail, SMS, Slack, Discord, Teams, PagerDuty et webhooks personnalisés. Combiné à la surveillance de la disponibilité, des ports et des API, UpScanX offre une visibilité complète du réseau et des applications à partir d'une plate-forme unique.
Liste de contrôle de surveillance Ping
Pour la plupart des environnements de production, une base de référence solide comprend des sondes multirégionales, des vérifications de repli ICMP et TCP, des seuils de perte de paquets et au moins une alerte en cas de pics de gigue soutenus. Si votre entreprise s'appuie sur la voix, la vidéo, un VPN ou la connectivité d'un bureau distant, la gigue et la latence régionale doivent être traitées comme des mesures de premier ordre et non comme des diagnostics secondaires.
La surveillance Ping est plus utile lorsqu'elle est associée à une visibilité sur l'itinéraire et à des contrôles de service de niveau supérieur. Lorsque vous pouvez corréler la perte de paquets avec les modifications du traceroute et les erreurs d'application, le dépannage devient beaucoup plus rapide et précis.
Commencez à surveiller votre réseau avec UpScanX – plan gratuit disponible.