Recherche d’indicateurs et de tendances via des plugins pour
Nagios
groupe Quasar IN2P3
Le 11/09/2014
Sommaire
• Groupe de Travail Quasar IN2P3
– Initier/accompagner les démarches qualité – Réflexion sur les indicateurs et les tendances
• Outils pour mesurer / quantifier
– Nagios : Outils pour suivre la qualité des services ? – Exemples de plugins :
• Pnp4nagios, Openmange, tcpTraffic, postfix, postfixSend, ldapMonitor, Cups, http…
– Alerte par SMS
– Mesure de disponibilité des services
• Trends, Availability Report
– Evolution de Nagios
• Proposition d’indicateurs / tendances pour l’IPHC
• Définir les orientations
Recherche des indicateurs / tendances
• Participation au groupe Quasar de l’in2p3
=> Initier/accompagner les démarches qualité menées dans les services informatiques
– Fiches de description de services – Catalogue de services
– Services desks
– Indicateurs et tendances – Evaluation des outils
• Les indicateurs et tendances
– Connaitre et suivre la qualité d’un service – Mesurer l’amélioration en continu
– Mesurer la disponibilité, consommation des moyens humains,
matériels, financiers
Indicateurs et Itil
• Issus des bonnes pratiques
– Qui connait mieux le SI que les informaticiens ? – Connaitre son infrastructure, ses services
• Les indicateurs d’Itil
– Recommandations génériques – Indicateurs livrés en standard
– Issus des habitudes de l’intégrateur pour le package négocié – Pas forcément issu de ou adaptés à l’informatique
• Ne répondent pas ou peu au besoin
• Voire peuvent être contre-productifs !
– Inquiétude des collaborateurs
– Détournement des indicateurs pour surveiller la productivité des informaticiens
– Les ASR ne veulent pas faire du secrétariat, remplir des formulaires – Documentation payante, sociétés de certification
– Domaine qui peux s’auto-entretenir seul sans fournir d’amélioration
Quel indicateur, pour quel usage dans un service informatique
• Responsable du système d’information
– Efficacité du support
– Satisfaction des utilisateurs – Satisfaction des collaborateurs – Réduction des coûts
• Responsable d’équipe
– Répartition équitable de la charge – Compétence des collaborateurs – Efficacité du travail fourni
– Surveillance des fournisseurs de services
• Responsable de processus et de fonction
– Service Desk
• Qualité des données
• Qualité de la qualification
• Documentation
– Processus de gestion d’incident
• Efficacité du support
• Répartition de la charge
• Satisfaction des utilisateurs
• Traitement des problèmes
– Efficacité du processus
– Résoudre les dysfonctionnements en organisant et en contrôlant l'utilisation des ressources
Quels indicateurs, pour les utilisateurs d’un service informatique
• Trouver les données permettant de mieux faire connaitre le SI aux utilisateurs
• Utilisateurs => consommateurs des services informatiques
• Pour un indicateur, c’est de connaitre son évolution qui est important =>
mesurer l’amélioration continue
• Pour la direction, il faut trouver un indicateur clé qui répond : oui/non, l’objectif est atteint ou pas
– Outils informatiques adaptés (accueil visiteurs, collaboration externe,..)
• Pour les groupes de recherche, il faut trouver des indicateurs qui suggèrent ce qui doit être amélioré pour atteindre les objectifs
– Chargé de maintenir ou faire évoluer les solutions dédiés à leurs thématiques
• Pour les utilisateurs, il faut trouver des indicateurs qui définissent la tendance dans l’amélioration du service
– Outil informatique fonctionnel, répondant aux besoins
Trouver les indicateurs
• Un besoin pour chacun de nous (Service informatique)
• Mettre en avant les indicateurs fournissant des informations utiles au pilotage du SI, par exemple :
– justifier une augmentation de la charge de travail – améliorer la qualité (taux de satisfaction en hausse)
• Ne pas mettre en porte-à-faux un collaborateur
• Rendre les collaborateurs d’une même équipe solidaires des résultats
• Prévoir de mettre en place des réunions de présentation : – Présenter les résultats
– Interpréter les résultats et s’assurer qu’il y a une adhésion à cette compréhension
– Valider les calculs effectués
– Définir de nouveaux objectifs
Mieux connaitre son SI
• Chacun de nous fait déjà de la supervision
• Chacun de nous cherche à améliorer ses objectifs
• Chacun de nous est impliqué dans son travail
• Pas d’outils pour le mesurer, quantifier
– accessible à tous les admins
– prendre en compte les évolutions
– fournir de soi-même ces indicateurs de valeur
• => recherche de ces indicateurs / tendances dans les services
– Messagerie: mailbox, relay smtps, passerelle smtp, webmail, agenda
– Service: stockage, virtualisation, serveur d’impression, authentification
– Gestion des comptes: création, modification, fermeture, gestion annuaire, alias – Support utilisateurs : satisfaction des utilisateurs, résolution des problèmes – Achat : logiciels, matériel
• =>Besoin d’outils de gestion de configuration, de supervision, de performance
– Itop, Glpi, Ocs, Nagios, Cacti, Shinken, zabbix, ganglia
– Outils de satisfaction ? (exemple : Dell, club sportif, stages, agence de voyage: envois d’enquête de satisfaction)
Nagios & les Plugins standards
• Plugins standards fournis par EPEL – Plus de 70 plugins
– Par défaut : disque, swap, load, ram, ntp, time, ping – Machine spécifique : mysql, ldap
– Peuvent être utilisés : flexlm, http, tcp, pop, imap, smtp
• Fournissent des indicateurs sur le fonctionnement du service audité – Code de retour: OK, WARNING, CRITICAL, UNKNOWN
– PerfData : données optionnelles de performance qui peuvent être traitées par une application externe
– Valeurs enregistrées dans des fichiers RRDTool (Round-Robin Database)
– Taille max par défaut par lecture : 4KB de données – Période d’activité 8h-18h ou 24h/24h
– Fréquence de vérification : 10 minutes
Nagios et recherche d’indicateurs
• Audit des services
– Etat du service (fonctionnalité, taux de disponibilité) – Remonter les performances
– Répartis sur plusieurs serveurs
=>Nagios fournit 2 modes de connexion
• Évolution dans le temps
• Représentation graphique, tendance
En mode actif via NRPE En mode passif via NSCA
Nagios & autres plugins
• Pnp4nagios
– Ce plugin permet d’analyser les valeurs des PerfData – Ces valeurs peuvent être visualisées graphiquement – Définition de template pour l’affichage des courbes – Par défaut, il y a des graphiques sous 4h, 25h, une
semaine, un mois, un an
– Support d’échelle de temps, de zoom sur les graphiques, export au format pdf
– Configuration simple, console web, écrit en php
Pnp4nagios
• Représentation graphique pour un control
check_openmanage
• Openmanage
– Information sur le matériel cpu, ram, ventilateur, disque, raid, alimentation, pilote à mettre à jour
– Déclenchement d’un évènement : exécution d’une commande [envoi d’un mail]
– Pas de déclenchement lors du retour à l’état normal de fonctionnement
• Installation côté serveur d’openmange
– Documentation dans le trac
• Installation du service nrpe
yum install epel-release
yum install nrpe nagios-plugins-openmanage nagios-plugins-disk nagios-plugins-load vi /etc/nagios/nrpe.cfg
allowed_hosts=127.0.0.1,nagiossrvIP
command[check_openmanage]=/usr/lib64/nagios/plugins/check_openmanage chkconfig nrpe on
service nrpe restart
check_openmanage
• Configuration des définitions dans Nagios
##openManage##
define service {
name srv-dellomsa use generic-service
service_description Dell OMSA
check_command check_nrpe!check_openmanage check_interval 60
}
• Ajouter le service au serveur à surveiller define service {
use srv-dellomsa host_name sbgpcsxx }
check_openmanage
• Avertissements :
– Par mail lors d’une perte d’alimentation
***** Nagios *****
Notification Type: PROBLEM Service: Dell OMSA
Host: sbgpcsxx
Address: aa.bb.cc.dd State: CRITICAL
Date/Time: Thu May 15 15:32:30 CEST 2014 Additional Info:
Power Supply 0 [AC]: Presence Detected, AC Lostbr/Voltage sensor 18 [PS1 Voltage 1] reads 0 V
– Par le statut des services ou serveurs dans l’interface html
de Nagios
check_openmanage
• Indicateurs
– Fiabilité du matériel
– Nombre d’interventions
– Taux de panne des disques, ventilateurs…
• Représentation graphique
– Délais d’intervention (temps pour corriger le défaut)
– Matériel garanti en J+1, définir les SLA en fonction
– Autres ?
check_tcptraffic 1/2
• Mesure
– Volume sortant, volume entrant et volume total
• Indicateurs ?
– Utilisation de la bande passante du serveur
– Type de matériel nécessaire ( +- complexe, HA, disponibilité, criticité des données)
• Remarques
– Calcul du trafic entre deux relevés de Nagios
=> ne peut pas être utilisé depuis deux serveur Nagios en même temps.
– Seuil d’alerte fixé en fonction de la vitesse de connexion – Déclenche dès qu’il y a une grosse copie de fichiers
=> idéal, définir un seuil et une durée minimale
Exemple : 80% de bande passante, avec un temps de 30 minutes
check_tcptraffic 2/2
Service de réception de mails
• Indicateurs ?
– Taux d’utilisation de la messagerie
– Disponibilité du service de réception de la messagerie
• Mesure les mails entrants, mails remis, forwarded, bounced
• Ecriture du plugin en 2 partie
– Met les logs de postfix toutes les 10’ dans un fichier – Utilisation pflogsumm pour analyser les logs
– Pflogsumm fournit 20 indicateurs depuis les logs
– Calcule les perfdata depuis l’analyse de pflogsumm
check_postfix
• Graphique
• Chiffres clés :
– recevied ~ 10000mails/j, delivered : ~ 15000mails/j – Période 8h-18h: 9000 mails, 1 mail toutes les 4s
– Un mail général => 350 utilisateurs
• Taille des messages reçus ?
postfixSend
• Mesure :
– le nombre de mails envoyé par smtp ou smtps – Le nombre de destinataires par mail envoyé – Autre : taille des mails envoyés?
• Ecriture du plugin en 2 parties
– Ecrit les logs de postfix toutes les 10’ dans un fichier – Calcul des perfdata depuis ce fichier
• Définir un seuil d’alerte si trop de messages envoyés par un utilisateur ou @IP
– Action à entreprendre ?
– fail2ban ip?
postfixSend
• Chiffres clés
– Send: ~ 2600mails/j
– Dest: ~13 (destinataire|aliase)/mail, Max 60
destinataires, Max 33 mails envoyé en 10 minutes
• Graphique
postfixSend et Phishing
• Phishing
– Que se passe-t-il si un compte est compromit ?
• Actions possible
– Utiliser SPF, limiter le nombre destinataires / mail – Limiter le nombre de mails / utilisateur / période
• Graphique
Messagerie
• Indicateurs :
– disponibilité générale de la messagerie
– prise en comptes de l’état de fonctionnement des différents éléments
• Mesure :
– Cumuler plusieurs indicateurs
réception, envoi, quota, matériel, temps de traitement d’un mail, HA ?
• Remarques :
– Comment calculer un niveau de disponibilité avec plusieurs indicateurs – Mode fonctionnel, mais dégradé si on est sur le serveur de secours – Formule mathématique
– Via un plugin Nagios multicritère ?
– Pas de réponse actuellement
Ldapmonitor
• Indicateurs
– Disponibilité du service: déjà fait à l’IPHC – Usage et évolution du service
=> statistiques sur les requêtes, authentification, recherche, modifications, ajouts, suppressions, nombre d’enregistrement
• Mesure
– Statistique fournie par le serveur OpenLdap
– Configuration de l’accès à la base monitor sur les serveurs LDAP
• Ecriture du plugin pour avoir les valeurs
– bind, ubin, add, mod, del, rnd, search, ops
– Calcul delta par rapport à la dernière mesure
ldapmonitor
Problème de répartition de charge entre ldap1 et ldap2 ldap1 98%ldap2 2%
Nombreuses connexions depuis les services web, owcloud ,
Augmentation du nombre de stations,
mauvaise configuration sur un poste ?
http, cups, passerelle smtp
• Check_http
– Mesure du temps de réponse pour une URL – Date d’expiration d’un certificat SSL
check_http -w 5 -c 10 -C 30 --ssl -H sbgmail.in2p3.fr -p 465
WARNING - Certificate ‘sbgmail.in2p3.fr' expires in 29 day(s) (07/05/2014 23:59).
• Impressions
– check_cups_queue : Nombre de tâches dans la file, Age de la tâche
– Check_nt+ script externe : idem CUPS
• Passerelle smtp
– Nombre de spams, virus
– Mails légitimes, rejetés, retardés
Alertes par SMS
• Nagios est compatible avec plusieurs matériel
– RasPI (100€) / foxbox-lx800 (650€)
– Cisco 810 => permet d’avoir un réseau dédié
• Configuration Nagios pour l’envois des SMS
• Utile pour les services critiques
• 2ème solution pour avertir les ASR
• Si le mail ne fonctionne plus
Nagios et les trends
• Les Trends permettent de suivre les
changements d’état d’un service. On peut
choisir d’afficher une période de 24h ou plus.
En 2013 98%
En 2014 100%
Amélioration liée au changement de solution de virtualisation (vmware vers proxmox )
Nagios et les Les « Availability Reports »
• Les « Availability Report » permettent de mesurer la disponibilité du service
– pourcentage de temps – unité de temps
• Période d’activité /
période de surveillance
=>horaire de travail des
utilisateurs
Nagios version 4
• Avenir de Nagios
– Annonce de la dernière version
– Problème entre l’équipe de développement et la communauté d’utilisateurs
– Beaucoup de projets concurrents : centron, cacti, openmns, shinken, zabbix
• Evaluation d’autres produits de supervision plus complets
– Tableaux de bord, Rapport, Indicateurs ITIL
11/09/2014 sébastien Geiger IPHC 31
Idées d’Indicateurs / tendances
• Serveur d’impression (CUPS, Windows)
– Remonter le nombre de jobs d’impression, File d’impression bloquée – Charge en fonction du temps => horaire des grandes impressions
• Imprimantes
– Etat : bourrage papier, manque de papier, imprimante hors ligne, Toner presque vide – Volumes : Nombre de pages imprimées, nombre de pages par document
– Indications par jour, mois, années
– => ventilation des 30 imprimantes et copieurs en fonction de l’utilisation (géographique, type d’impression, coût)
• Services Desk ( Machines clientes / Utilisateurs / Logiciels / Remontée des informations de l’inventaire )
• nombre de logiciels avec licences, machines => ITop – Achat de matériel / logiciel (Linux, Mac, Windows)
• Budget des machines achetées, inventaire administratif, devis + factures =>ITop
• Budget groupe, service, plateforme =>ITop
– Nombre de demandes de support (service desk, connexion réseau, gestion des comptes) =>Itop – Incident de sécurité (ZNeTS) =>faire un ticket dans iTop
• Et le côté humain, contact avec les utilisateurs du laboratoire
– accueillir des visiteurs, accompagner les nouvelles demandes (connexions réseau, outils de synchronisation, formation, migration) => Répartition du temps, comment la mesurer ?
– Efficacité du support, satisfaction des utilisateurs, satisfaction des collaborateurs =>quel outil, faire des sondages ? – Gestion des coûts => mutualisation des outils et des infrastructures entre les départements du laboratoire
• Serveur de licence ou de jeton
– Nombre de licences libres / utilisées – Statistiques d’utilisation des licences
• Autres ?
Gestion de la performance et IPHC
• Continuer à collecter des informations
– Systèmes de l’IPHC (Linux, Windows, département DRS, DEPE, DSA)
– réseau ? avoir une visualisation des indicateurs clés, complémentaires de la solution déjà utilisée, carte des équipements actifs et des débits
– Services : impression, authentification, gestion des machines – logiciels – Généraliser l’utilisation : sbgmic, sbgli, sbgbackup, serveurs de stockage des
expériences
• Mutualisation de la solution
– Système: service généraux, grille, virtualisation, cloud – Réseau: trafic serveur, switch, routeur, wifi, vpn
– Backup: trafic réseau, volume sauvegardé, heure de backup, charge – Disponibilité des services
– Evolution des métriques sur 5 ans
– Fournir aux utilisateurs un état de l’ensemble de services sous forme d’un tableau de bord
NagVis
• NagVis est un addon de visualisation pour Nagios
– Permet de visualiser des cartes, avec sous sous- ensembles
– Support du trafic réseau sous forme de weathermap lines
• Exemples
Définir les orientations
• Face à la complexité croissante des technologies de l’information, la gestion des services informatiques s’impose comme un réel défi.
• 3 pôles
– Inventaire, Gestion de configuration: Itop, OcsInventory – Supervision: Nagios, SyslogNG
– Gestion de la performance : Cacti, MRTG, Zabbix, Shinken, Pnp4Nagios, NagVis,Ganglia
• Avantages
– Administrateur système et réseau
• Identifier rapidement l’impact d’un actif (CI) sur les processus métiers de l’entreprise
• Automatiser certaines tâches opérationnelles
• Faciliter la documentation des actifs – Responsable informatique
• Contrôler les coûts opérationnels
• Avoir une vision globale du système informatique
• Accéder rapidement à des rapports d’analyse consolidés
• Responsabiliser ses équipes
• Améliorer la satisfaction client – Utilisateur de service informatique
• Accès simple au catalogue des services IT
• Savoir ou en est une demande
• Connaître le statut du système d’information
• Avoir un point d’entrée unique pour toutes les demandes IT
• Inconvénients
– Changer les habitudes de chacun – Réorganiser les responsabilités
– Quel bénéfice pour le fonctionnement du SI
– Craintes des collaborateurs, gestion des incidents par ticket
annexe
• Liens
http://wiki.en.it-processmaps.com/index.php/ITIL_Key_Performance_Indicators liste d’indicateurs
https://www.linkedin.com/today/post/article/20130905053105-64875646-the-75- kpis-every-manager-needs-to-know
75 indicateurs a connaitre d’un point de vu ITIL
https://www.ucisa.ac.uk/~/media/Files/members/activities/ITIL/service_operation/inc ident_management/ITIL_IM%20KPIs%20and%20reports%20pdf.ashx
recommandations
http://www.smartkpis.com/
exemples d’indicateurs.
http://www.leandigestion.fr/elegance-des-indicateurs-smart-kpi/
petite recommandation, d'un point de vue du lean managment
http://www.thinkmind.org/download.php?articleid=emerging_2013_3_30_40082 un article sur les indicateurs dans le cloud, mais cela peux aussi se faire sur nos SI http://www.icorp.com.mx/LinkClick.aspx?fileticket=AaQP5b9JR5Q=&tabid=38 Exemples d’indicateurs pour la gestion d’un parc informatique