Recherche d indicateurs et de tendances via des plugins pour Nagios. groupe Quasar IN2P3 Le 11/09/2014

(1)

Recherche d’indicateurs et de tendances via des plugins pour

Nagios

groupe Quasar IN2P3

Le 11/09/2014

(2)

Sommaire

• Groupe de Travail Quasar IN2P3

– Initier/accompagner les démarches qualité – Réflexion sur les indicateurs et les tendances

• Outils pour mesurer / quantifier

– Nagios : Outils pour suivre la qualité des services ? – Exemples de plugins :

• Pnp4nagios, Openmange, tcpTraffic, postfix, postfixSend, ldapMonitor, Cups, http…

– Alerte par SMS

– Mesure de disponibilité des services

• Trends, Availability Report

– Evolution de Nagios

• Proposition d’indicateurs / tendances pour l’IPHC

• Définir les orientations

(3)

Recherche des indicateurs / tendances

• Participation au groupe Quasar de l’in2p3

=> Initier/accompagner les démarches qualité menées dans les services informatiques

– Fiches de description de services – Catalogue de services

– Services desks

– Indicateurs et tendances – Evaluation des outils

• Les indicateurs et tendances

– Connaitre et suivre la qualité d’un service – Mesurer l’amélioration en continu

– Mesurer la disponibilité, consommation des moyens humains,

matériels, financiers

(4)

Indicateurs et Itil

• Issus des bonnes pratiques

– Qui connait mieux le SI que les informaticiens ? – Connaitre son infrastructure, ses services

• Les indicateurs d’Itil

– Recommandations génériques – Indicateurs livrés en standard

– Issus des habitudes de l’intégrateur pour le package négocié – Pas forcément issu de ou adaptés à l’informatique

• Ne répondent pas ou peu au besoin

• Voire peuvent être contre-productifs !

– Inquiétude des collaborateurs

– Détournement des indicateurs pour surveiller la productivité des informaticiens

– Les ASR ne veulent pas faire du secrétariat, remplir des formulaires – Documentation payante, sociétés de certification

– Domaine qui peux s’auto-entretenir seul sans fournir d’amélioration

(5)

Quel indicateur, pour quel usage dans un service informatique

• Responsable du système d’information

– Efficacité du support

– Satisfaction des utilisateurs – Satisfaction des collaborateurs – Réduction des coûts

• Responsable d’équipe

– Répartition équitable de la charge – Compétence des collaborateurs – Efficacité du travail fourni

– Surveillance des fournisseurs de services

• Responsable de processus et de fonction

– Service Desk

• Qualité des données

• Qualité de la qualification

• Documentation

– Processus de gestion d’incident

• Efficacité du support

• Répartition de la charge

• Satisfaction des utilisateurs

• Traitement des problèmes

– Efficacité du processus

– Résoudre les dysfonctionnements en organisant et en contrôlant l'utilisation des ressources

(6)

Quels indicateurs, pour les utilisateurs d’un service informatique

• Trouver les données permettant de mieux faire connaitre le SI aux utilisateurs

• Utilisateurs => consommateurs des services informatiques

• Pour un indicateur, c’est de connaitre son évolution qui est important =>

mesurer l’amélioration continue

• Pour la direction, il faut trouver un indicateur clé qui répond : oui/non, l’objectif est atteint ou pas

– Outils informatiques adaptés (accueil visiteurs, collaboration externe,..)

• Pour les groupes de recherche, il faut trouver des indicateurs qui suggèrent ce qui doit être amélioré pour atteindre les objectifs

– Chargé de maintenir ou faire évoluer les solutions dédiés à leurs thématiques

• Pour les utilisateurs, il faut trouver des indicateurs qui définissent la tendance dans l’amélioration du service

– Outil informatique fonctionnel, répondant aux besoins

(7)

Trouver les indicateurs

• Un besoin pour chacun de nous (Service informatique)

• Mettre en avant les indicateurs fournissant des informations utiles au pilotage du SI, par exemple :

– justifier une augmentation de la charge de travail – améliorer la qualité (taux de satisfaction en hausse)

• Ne pas mettre en porte-à-faux un collaborateur

• Rendre les collaborateurs d’une même équipe solidaires des résultats

• Prévoir de mettre en place des réunions de présentation : – Présenter les résultats

– Interpréter les résultats et s’assurer qu’il y a une adhésion à cette compréhension

– Valider les calculs effectués

– Définir de nouveaux objectifs

(8)

Mieux connaitre son SI

• Chacun de nous fait déjà de la supervision

• Chacun de nous cherche à améliorer ses objectifs

• Chacun de nous est impliqué dans son travail

• Pas d’outils pour le mesurer, quantifier

– accessible à tous les admins

– prendre en compte les évolutions

– fournir de soi-même ces indicateurs de valeur

• => recherche de ces indicateurs / tendances dans les services

– Messagerie: mailbox, relay smtps, passerelle smtp, webmail, agenda

– Service: stockage, virtualisation, serveur d’impression, authentification

– Gestion des comptes: création, modification, fermeture, gestion annuaire, alias – Support utilisateurs : satisfaction des utilisateurs, résolution des problèmes – Achat : logiciels, matériel

• =>Besoin d’outils de gestion de configuration, de supervision, de performance

– Itop, Glpi, Ocs, Nagios, Cacti, Shinken, zabbix, ganglia

– Outils de satisfaction ? (exemple : Dell, club sportif, stages, agence de voyage: envois d’enquête de satisfaction)

(9)

Nagios & les Plugins standards

• Plugins standards fournis par EPEL – Plus de 70 plugins

– Par défaut : disque, swap, load, ram, ntp, time, ping – Machine spécifique : mysql, ldap

– Peuvent être utilisés : flexlm, http, tcp, pop, imap, smtp

• Fournissent des indicateurs sur le fonctionnement du service audité – Code de retour: OK, WARNING, CRITICAL, UNKNOWN

– PerfData : données optionnelles de performance qui peuvent être traitées par une application externe

– Valeurs enregistrées dans des fichiers RRDTool (Round-Robin Database)

– Taille max par défaut par lecture : 4KB de données – Période d’activité 8h-18h ou 24h/24h

– Fréquence de vérification : 10 minutes

(10)

Nagios et recherche d’indicateurs

• Audit des services

– Etat du service (fonctionnalité, taux de disponibilité) – Remonter les performances

– Répartis sur plusieurs serveurs

=>Nagios fournit 2 modes de connexion

• Évolution dans le temps

• Représentation graphique, tendance

En mode actif via NRPE En mode passif via NSCA

(11)

Nagios & autres plugins

• Pnp4nagios

– Ce plugin permet d’analyser les valeurs des PerfData – Ces valeurs peuvent être visualisées graphiquement – Définition de template pour l’affichage des courbes – Par défaut, il y a des graphiques sous 4h, 25h, une

semaine, un mois, un an

– Support d’échelle de temps, de zoom sur les graphiques, export au format pdf

– Configuration simple, console web, écrit en php

(12)

Pnp4nagios

• Représentation graphique pour un control

(13)

check_openmanage

• Openmanage

– Information sur le matériel cpu, ram, ventilateur, disque, raid, alimentation, pilote à mettre à jour

– Déclenchement d’un évènement : exécution d’une commande [envoi d’un mail]

– Pas de déclenchement lors du retour à l’état normal de fonctionnement

• Installation côté serveur d’openmange

– Documentation dans le trac

• Installation du service nrpe

yum install epel-release

yum install nrpe nagios-plugins-openmanage nagios-plugins-disk nagios-plugins-load vi /etc/nagios/nrpe.cfg

allowed_hosts=127.0.0.1,nagiossrvIP

command[check_openmanage]=/usr/lib64/nagios/plugins/check_openmanage chkconfig nrpe on

service nrpe restart

(14)

check_openmanage

• Configuration des définitions dans Nagios

##openManage##

define service {

name srv-dellomsa use generic-service

service_description Dell OMSA

check_command check_nrpe!check_openmanage check_interval 60

}

• Ajouter le service au serveur à surveiller define service {

use srv-dellomsa host_name sbgpcsxx }

(15)

check_openmanage

• Avertissements :

– Par mail lors d’une perte d’alimentation

***** Nagios *****

Notification Type: PROBLEM Service: Dell OMSA

Host: sbgpcsxx

Address: aa.bb.cc.dd State: CRITICAL

Date/Time: Thu May 15 15:32:30 CEST 2014 Additional Info:

Power Supply 0 [AC]: Presence Detected, AC Lostbr/Voltage sensor 18 [PS1 Voltage 1] reads 0 V

– Par le statut des services ou serveurs dans l’interface html

de Nagios

(16)

check_openmanage

• Indicateurs

– Fiabilité du matériel

– Nombre d’interventions

– Taux de panne des disques, ventilateurs…

• Représentation graphique

– Délais d’intervention (temps pour corriger le défaut)

– Matériel garanti en J+1, définir les SLA en fonction

– Autres ?

(17)

check_tcptraffic ^1/2

• Mesure

– Volume sortant, volume entrant et volume total

• Indicateurs ?

– Utilisation de la bande passante du serveur

– Type de matériel nécessaire ( +- complexe, HA, disponibilité, criticité des données)

• Remarques

– Calcul du trafic entre deux relevés de Nagios

=> ne peut pas être utilisé depuis deux serveur Nagios en même temps.

– Seuil d’alerte fixé en fonction de la vitesse de connexion – Déclenche dès qu’il y a une grosse copie de fichiers

=> idéal, définir un seuil et une durée minimale

Exemple : 80% de bande passante, avec un temps de 30 minutes

(18)

check_tcptraffic ^2/2

(19)

Service de réception de mails

• Indicateurs ?

– Taux d’utilisation de la messagerie

– Disponibilité du service de réception de la messagerie

• Mesure les mails entrants, mails remis, forwarded, bounced

• Ecriture du plugin en 2 partie

– Met les logs de postfix toutes les 10’ dans un fichier – Utilisation pflogsumm pour analyser les logs

– Pflogsumm fournit 20 indicateurs depuis les logs

– Calcule les perfdata depuis l’analyse de pflogsumm

(20)

check_postfix

• Graphique

• Chiffres clés :

– recevied ~ 10000mails/j, delivered : ~ 15000mails/j – Période 8h-18h: 9000 mails, 1 mail toutes les 4s

– Un mail général => 350 utilisateurs

• Taille des messages reçus ?

(21)

postfixSend

• Mesure :

– le nombre de mails envoyé par smtp ou smtps – Le nombre de destinataires par mail envoyé – Autre : taille des mails envoyés?

• Ecriture du plugin en 2 parties

– Ecrit les logs de postfix toutes les 10’ dans un fichier – Calcul des perfdata depuis ce fichier

• Définir un seuil d’alerte si trop de messages envoyés par un utilisateur ou @IP

– Action à entreprendre ?

– fail2ban ip?

(22)

postfixSend

• Chiffres clés

– Send: ~ 2600mails/j

– Dest: ~13 (destinataire|aliase)/mail, Max 60

destinataires, Max 33 mails envoyé en 10 minutes

• Graphique

(23)

postfixSend et Phishing

• Phishing

– Que se passe-t-il si un compte est compromit ?

• Actions possible

– Utiliser SPF, limiter le nombre destinataires / mail – Limiter le nombre de mails / utilisateur / période

• Graphique

(24)

Messagerie

• Indicateurs :

– disponibilité générale de la messagerie

– prise en comptes de l’état de fonctionnement des différents éléments

• Mesure :

– Cumuler plusieurs indicateurs

réception, envoi, quota, matériel, temps de traitement d’un mail, HA ?

• Remarques :

– Comment calculer un niveau de disponibilité avec plusieurs indicateurs – Mode fonctionnel, mais dégradé si on est sur le serveur de secours – Formule mathématique

– Via un plugin Nagios multicritère ?

– Pas de réponse actuellement

(25)

Ldapmonitor

• Indicateurs

– Disponibilité du service: déjà fait à l’IPHC – Usage et évolution du service

=> statistiques sur les requêtes, authentification, recherche, modifications, ajouts, suppressions, nombre d’enregistrement

• Mesure

– Statistique fournie par le serveur OpenLdap

– Configuration de l’accès à la base monitor sur les serveurs LDAP

• Ecriture du plugin pour avoir les valeurs

– bind, ubin, add, mod, del, rnd, search, ops

– Calcul delta par rapport à la dernière mesure

(26)

ldapmonitor

Problème de répartition de charge entre ldap1 et ldap2 ldap1 98%

ldap2 2%

Nombreuses connexions depuis les services web, owcloud ,

Augmentation du nombre de stations,

mauvaise configuration sur un poste ?

(27)

http, cups, passerelle smtp

• Check_http

– Mesure du temps de réponse pour une URL – Date d’expiration d’un certificat SSL

check_http -w 5 -c 10 -C 30 --ssl -H sbgmail.in2p3.fr -p 465

WARNING - Certificate ‘sbgmail.in2p3.fr' expires in 29 day(s) (07/05/2014 23:59).

• Impressions

– check_cups_queue : Nombre de tâches dans la file, Age de la tâche

– Check_nt+ script externe : idem CUPS

• Passerelle smtp

– Nombre de spams, virus

– Mails légitimes, rejetés, retardés

(28)

Alertes par SMS

• Nagios est compatible avec plusieurs matériel

– RasPI (100€) / foxbox-lx800 (650€)

– Cisco 810 => permet d’avoir un réseau dédié

• Configuration Nagios pour l’envois des SMS

• Utile pour les services critiques

• 2ème solution pour avertir les ASR

• Si le mail ne fonctionne plus

(29)

Nagios et les trends

• Les Trends permettent de suivre les

changements d’état d’un service. On peut

choisir d’afficher une période de 24h ou plus.

En 2013 98%

En 2014 100%

Amélioration liée au changement de solution de virtualisation (vmware vers proxmox )

(30)

Nagios et les Les « Availability Reports »

• Les « Availability Report » permettent de mesurer la disponibilité du service

– pourcentage de temps – unité de temps

• Période d’activité /

période de surveillance

=>horaire de travail des

utilisateurs

(31)

Nagios version 4

• Avenir de Nagios

– Annonce de la dernière version

– Problème entre l’équipe de développement et la communauté d’utilisateurs

– Beaucoup de projets concurrents : centron, cacti, openmns, shinken, zabbix

• Evaluation d’autres produits de supervision plus complets

– Tableaux de bord, Rapport, Indicateurs ITIL

11/09/2014 sébastien Geiger IPHC 31

(32)

Idées d’Indicateurs / tendances

• Serveur d’impression (CUPS, Windows)

– Remonter le nombre de jobs d’impression, File d’impression bloquée – Charge en fonction du temps => horaire des grandes impressions

• Imprimantes

– Etat : bourrage papier, manque de papier, imprimante hors ligne, Toner presque vide – Volumes : Nombre de pages imprimées, nombre de pages par document

– Indications par jour, mois, années

– => ventilation des 30 imprimantes et copieurs en fonction de l’utilisation (géographique, type d’impression, coût)

• Services Desk ( Machines clientes / Utilisateurs / Logiciels / Remontée des informations de l’inventaire )

• nombre de logiciels avec licences, machines => ITop – Achat de matériel / logiciel (Linux, Mac, Windows)

• Budget des machines achetées, inventaire administratif, devis + factures =>ITop

• Budget groupe, service, plateforme =>ITop

– Nombre de demandes de support (service desk, connexion réseau, gestion des comptes) =>Itop – Incident de sécurité (ZNeTS) =>faire un ticket dans iTop

• Et le côté humain, contact avec les utilisateurs du laboratoire

– accueillir des visiteurs, accompagner les nouvelles demandes (connexions réseau, outils de synchronisation, formation, migration) => Répartition du temps, comment la mesurer ?

– Efficacité du support, satisfaction des utilisateurs, satisfaction des collaborateurs =>quel outil, faire des sondages ? – Gestion des coûts => mutualisation des outils et des infrastructures entre les départements du laboratoire

• Serveur de licence ou de jeton

– Nombre de licences libres / utilisées – Statistiques d’utilisation des licences

• Autres ?

(33)

Gestion de la performance et IPHC

• Continuer à collecter des informations

– Systèmes de l’IPHC (Linux, Windows, département DRS, DEPE, DSA)

– réseau ? avoir une visualisation des indicateurs clés, complémentaires de la solution déjà utilisée, carte des équipements actifs et des débits

– Services : impression, authentification, gestion des machines – logiciels – Généraliser l’utilisation : sbgmic, sbgli, sbgbackup, serveurs de stockage des

expériences

• Mutualisation de la solution

– Système: service généraux, grille, virtualisation, cloud – Réseau: trafic serveur, switch, routeur, wifi, vpn

– Backup: trafic réseau, volume sauvegardé, heure de backup, charge – Disponibilité des services

– Evolution des métriques sur 5 ans

– Fournir aux utilisateurs un état de l’ensemble de services sous forme d’un tableau de bord

(34)

NagVis

• NagVis est un addon de visualisation pour Nagios

– Permet de visualiser des cartes, avec sous sous- ensembles

– Support du trafic réseau sous forme de weathermap lines

• Exemples

(35)

Définir les orientations

• Face à la complexité croissante des technologies de l’information, la gestion des services informatiques s’impose comme un réel défi.

• 3 pôles

– Inventaire, Gestion de configuration: Itop, OcsInventory – Supervision: Nagios, SyslogNG

– Gestion de la performance : Cacti, MRTG, Zabbix, Shinken, Pnp4Nagios, NagVis,Ganglia

• Avantages

– Administrateur système et réseau

• Identifier rapidement l’impact d’un actif (CI) sur les processus métiers de l’entreprise

• Automatiser certaines tâches opérationnelles

• Faciliter la documentation des actifs – Responsable informatique

• Contrôler les coûts opérationnels

• Avoir une vision globale du système informatique

• Accéder rapidement à des rapports d’analyse consolidés

• Responsabiliser ses équipes

• Améliorer la satisfaction client – Utilisateur de service informatique

• Accès simple au catalogue des services IT

• Savoir ou en est une demande

• Connaître le statut du système d’information

• Avoir un point d’entrée unique pour toutes les demandes IT

• Inconvénients

– Changer les habitudes de chacun – Réorganiser les responsabilités

– Quel bénéfice pour le fonctionnement du SI

– Craintes des collaborateurs, gestion des incidents par ticket

(36)

annexe

• Liens

http://wiki.en.it-processmaps.com/index.php/ITIL_Key_Performance_Indicators liste d’indicateurs

https://www.linkedin.com/today/post/article/20130905053105-64875646-the-75- kpis-every-manager-needs-to-know

75 indicateurs a connaitre d’un point de vu ITIL

https://www.ucisa.ac.uk/~/media/Files/members/activities/ITIL/service_operation/inc ident_management/ITIL_IM%20KPIs%20and%20reports%20pdf.ashx

recommandations

http://www.smartkpis.com/

exemples d’indicateurs.

http://www.leandigestion.fr/elegance-des-indicateurs-smart-kpi/

petite recommandation, d'un point de vue du lean managment

http://www.thinkmind.org/download.php?articleid=emerging_2013_3_30_40082 un article sur les indicateurs dans le cloud, mais cela peux aussi se faire sur nos SI http://www.icorp.com.mx/LinkClick.aspx?fileticket=AaQP5b9JR5Q=&tabid=38 Exemples d’indicateurs pour la gestion d’un parc informatique