• Aucun résultat trouvé

Recherche d indicateurs et de tendances via des plugins pour Nagios. groupe Quasar IN2P3 Le 11/09/2014

N/A
N/A
Protected

Academic year: 2022

Partager "Recherche d indicateurs et de tendances via des plugins pour Nagios. groupe Quasar IN2P3 Le 11/09/2014"

Copied!
36
0
0

Texte intégral

(1)

Recherche d’indicateurs et de tendances via des plugins pour

Nagios

groupe Quasar IN2P3

Le 11/09/2014

(2)

Sommaire

• Groupe de Travail Quasar IN2P3

– Initier/accompagner les démarches qualité – Réflexion sur les indicateurs et les tendances

• Outils pour mesurer / quantifier

– Nagios : Outils pour suivre la qualité des services ? – Exemples de plugins :

Pnp4nagios, Openmange, tcpTraffic, postfix, postfixSend, ldapMonitor, Cups, http…

– Alerte par SMS

– Mesure de disponibilité des services

Trends, Availability Report

– Evolution de Nagios

• Proposition d’indicateurs / tendances pour l’IPHC

• Définir les orientations

(3)

Recherche des indicateurs / tendances

• Participation au groupe Quasar de l’in2p3

=> Initier/accompagner les démarches qualité menées dans les services informatiques

– Fiches de description de services – Catalogue de services

– Services desks

– Indicateurs et tendances – Evaluation des outils

• Les indicateurs et tendances

– Connaitre et suivre la qualité d’un service – Mesurer l’amélioration en continu

– Mesurer la disponibilité, consommation des moyens humains,

matériels, financiers

(4)

Indicateurs et Itil

• Issus des bonnes pratiques

– Qui connait mieux le SI que les informaticiens ? – Connaitre son infrastructure, ses services

• Les indicateurs d’Itil

– Recommandations génériques – Indicateurs livrés en standard

– Issus des habitudes de l’intégrateur pour le package négocié – Pas forcément issu de ou adaptés à l’informatique

• Ne répondent pas ou peu au besoin

• Voire peuvent être contre-productifs !

– Inquiétude des collaborateurs

– Détournement des indicateurs pour surveiller la productivité des informaticiens

– Les ASR ne veulent pas faire du secrétariat, remplir des formulaires – Documentation payante, sociétés de certification

– Domaine qui peux s’auto-entretenir seul sans fournir d’amélioration

(5)

Quel indicateur, pour quel usage dans un service informatique

Responsable du système d’information

Efficacité du support

Satisfaction des utilisateurs Satisfaction des collaborateurs Réduction des coûts

Responsable d’équipe

Répartition équitable de la charge Compétence des collaborateurs Efficacité du travail fourni

Surveillance des fournisseurs de services

Responsable de processus et de fonction

Service Desk

Qualité des données

Qualité de la qualification

Documentation

Processus de gestion d’incident

Efficacité du support

Répartition de la charge

Satisfaction des utilisateurs

Traitement des problèmes

Efficacité du processus

Résoudre les dysfonctionnements en organisant et en contrôlant l'utilisation des ressources

(6)

Quels indicateurs, pour les utilisateurs d’un service informatique

• Trouver les données permettant de mieux faire connaitre le SI aux utilisateurs

• Utilisateurs => consommateurs des services informatiques

• Pour un indicateur, c’est de connaitre son évolution qui est important =>

mesurer l’amélioration continue

• Pour la direction, il faut trouver un indicateur clé qui répond : oui/non, l’objectif est atteint ou pas

– Outils informatiques adaptés (accueil visiteurs, collaboration externe,..)

• Pour les groupes de recherche, il faut trouver des indicateurs qui suggèrent ce qui doit être amélioré pour atteindre les objectifs

– Chargé de maintenir ou faire évoluer les solutions dédiés à leurs thématiques

• Pour les utilisateurs, il faut trouver des indicateurs qui définissent la tendance dans l’amélioration du service

– Outil informatique fonctionnel, répondant aux besoins

(7)

Trouver les indicateurs

• Un besoin pour chacun de nous (Service informatique)

• Mettre en avant les indicateurs fournissant des informations utiles au pilotage du SI, par exemple :

– justifier une augmentation de la charge de travail – améliorer la qualité (taux de satisfaction en hausse)

• Ne pas mettre en porte-à-faux un collaborateur

• Rendre les collaborateurs d’une même équipe solidaires des résultats

• Prévoir de mettre en place des réunions de présentation : – Présenter les résultats

– Interpréter les résultats et s’assurer qu’il y a une adhésion à cette compréhension

– Valider les calculs effectués

– Définir de nouveaux objectifs

(8)

Mieux connaitre son SI

• Chacun de nous fait déjà de la supervision

• Chacun de nous cherche à améliorer ses objectifs

• Chacun de nous est impliqué dans son travail

• Pas d’outils pour le mesurer, quantifier

accessible à tous les admins

prendre en compte les évolutions

fournir de soi-même ces indicateurs de valeur

• => recherche de ces indicateurs / tendances dans les services

Messagerie: mailbox, relay smtps, passerelle smtp, webmail, agenda

Service: stockage, virtualisation, serveur d’impression, authentification

Gestion des comptes: création, modification, fermeture, gestion annuaire, alias Support utilisateurs : satisfaction des utilisateurs, résolution des problèmes Achat : logiciels, matériel

• =>Besoin d’outils de gestion de configuration, de supervision, de performance

Itop, Glpi, Ocs, Nagios, Cacti, Shinken, zabbix, ganglia

Outils de satisfaction ? (exemple : Dell, club sportif, stages, agence de voyage: envois d’enquête de satisfaction)

(9)

Nagios & les Plugins standards

• Plugins standards fournis par EPEL – Plus de 70 plugins

– Par défaut : disque, swap, load, ram, ntp, time, ping – Machine spécifique : mysql, ldap

– Peuvent être utilisés : flexlm, http, tcp, pop, imap, smtp

• Fournissent des indicateurs sur le fonctionnement du service audité – Code de retour: OK, WARNING, CRITICAL, UNKNOWN

– PerfData : données optionnelles de performance qui peuvent être traitées par une application externe

– Valeurs enregistrées dans des fichiers RRDTool (Round-Robin Database)

– Taille max par défaut par lecture : 4KB de données – Période d’activité 8h-18h ou 24h/24h

– Fréquence de vérification : 10 minutes

(10)

Nagios et recherche d’indicateurs

• Audit des services

– Etat du service (fonctionnalité, taux de disponibilité) – Remonter les performances

– Répartis sur plusieurs serveurs

=>Nagios fournit 2 modes de connexion

• Évolution dans le temps

• Représentation graphique, tendance

En mode actif via NRPE En mode passif via NSCA

(11)

Nagios & autres plugins

• Pnp4nagios

– Ce plugin permet d’analyser les valeurs des PerfData – Ces valeurs peuvent être visualisées graphiquement – Définition de template pour l’affichage des courbes – Par défaut, il y a des graphiques sous 4h, 25h, une

semaine, un mois, un an

– Support d’échelle de temps, de zoom sur les graphiques, export au format pdf

– Configuration simple, console web, écrit en php

(12)

Pnp4nagios

• Représentation graphique pour un control

(13)

check_openmanage

• Openmanage

Information sur le matériel cpu, ram, ventilateur, disque, raid, alimentation, pilote à mettre à jour

Déclenchement d’un évènement : exécution d’une commande [envoi d’un mail]

Pas de déclenchement lors du retour à l’état normal de fonctionnement

• Installation côté serveur d’openmange

Documentation dans le trac

• Installation du service nrpe

yum install epel-release

yum install nrpe nagios-plugins-openmanage nagios-plugins-disk nagios-plugins-load vi /etc/nagios/nrpe.cfg

allowed_hosts=127.0.0.1,nagiossrvIP

command[check_openmanage]=/usr/lib64/nagios/plugins/check_openmanage chkconfig nrpe on

service nrpe restart

(14)

check_openmanage

• Configuration des définitions dans Nagios

##openManage##

define service {

name srv-dellomsa use generic-service

service_description Dell OMSA

check_command check_nrpe!check_openmanage check_interval 60

}

• Ajouter le service au serveur à surveiller define service {

use srv-dellomsa host_name sbgpcsxx }

(15)

check_openmanage

• Avertissements :

– Par mail lors d’une perte d’alimentation

***** Nagios *****

Notification Type: PROBLEM Service: Dell OMSA

Host: sbgpcsxx

Address: aa.bb.cc.dd State: CRITICAL

Date/Time: Thu May 15 15:32:30 CEST 2014 Additional Info:

Power Supply 0 [AC]: Presence Detected, AC Lostbr/Voltage sensor 18 [PS1 Voltage 1] reads 0 V

– Par le statut des services ou serveurs dans l’interface html

de Nagios

(16)

check_openmanage

• Indicateurs

– Fiabilité du matériel

– Nombre d’interventions

– Taux de panne des disques, ventilateurs…

• Représentation graphique

– Délais d’intervention (temps pour corriger le défaut)

– Matériel garanti en J+1, définir les SLA en fonction

– Autres ?

(17)

check_tcptraffic 1/2

• Mesure

– Volume sortant, volume entrant et volume total

• Indicateurs ?

– Utilisation de la bande passante du serveur

– Type de matériel nécessaire ( +- complexe, HA, disponibilité, criticité des données)

• Remarques

– Calcul du trafic entre deux relevés de Nagios

=> ne peut pas être utilisé depuis deux serveur Nagios en même temps.

– Seuil d’alerte fixé en fonction de la vitesse de connexion – Déclenche dès qu’il y a une grosse copie de fichiers

=> idéal, définir un seuil et une durée minimale

Exemple : 80% de bande passante, avec un temps de 30 minutes

(18)

check_tcptraffic 2/2

(19)

Service de réception de mails

• Indicateurs ?

– Taux d’utilisation de la messagerie

– Disponibilité du service de réception de la messagerie

• Mesure les mails entrants, mails remis, forwarded, bounced

• Ecriture du plugin en 2 partie

– Met les logs de postfix toutes les 10’ dans un fichier – Utilisation pflogsumm pour analyser les logs

– Pflogsumm fournit 20 indicateurs depuis les logs

– Calcule les perfdata depuis l’analyse de pflogsumm

(20)

check_postfix

• Graphique

• Chiffres clés :

– recevied ~ 10000mails/j, delivered : ~ 15000mails/j – Période 8h-18h: 9000 mails, 1 mail toutes les 4s

– Un mail général => 350 utilisateurs

• Taille des messages reçus ?

(21)

postfixSend

• Mesure :

– le nombre de mails envoyé par smtp ou smtps – Le nombre de destinataires par mail envoyé – Autre : taille des mails envoyés?

• Ecriture du plugin en 2 parties

– Ecrit les logs de postfix toutes les 10’ dans un fichier – Calcul des perfdata depuis ce fichier

• Définir un seuil d’alerte si trop de messages envoyés par un utilisateur ou @IP

– Action à entreprendre ?

– fail2ban ip?

(22)

postfixSend

• Chiffres clés

– Send: ~ 2600mails/j

– Dest: ~13 (destinataire|aliase)/mail, Max 60

destinataires, Max 33 mails envoyé en 10 minutes

• Graphique

(23)

postfixSend et Phishing

• Phishing

– Que se passe-t-il si un compte est compromit ?

• Actions possible

– Utiliser SPF, limiter le nombre destinataires / mail – Limiter le nombre de mails / utilisateur / période

• Graphique

(24)

Messagerie

• Indicateurs :

– disponibilité générale de la messagerie

– prise en comptes de l’état de fonctionnement des différents éléments

• Mesure :

– Cumuler plusieurs indicateurs

réception, envoi, quota, matériel, temps de traitement d’un mail, HA ?

• Remarques :

– Comment calculer un niveau de disponibilité avec plusieurs indicateurs – Mode fonctionnel, mais dégradé si on est sur le serveur de secours – Formule mathématique

– Via un plugin Nagios multicritère ?

– Pas de réponse actuellement

(25)

Ldapmonitor

• Indicateurs

– Disponibilité du service: déjà fait à l’IPHC – Usage et évolution du service

=> statistiques sur les requêtes, authentification, recherche, modifications, ajouts, suppressions, nombre d’enregistrement

• Mesure

– Statistique fournie par le serveur OpenLdap

– Configuration de l’accès à la base monitor sur les serveurs LDAP

• Ecriture du plugin pour avoir les valeurs

– bind, ubin, add, mod, del, rnd, search, ops

– Calcul delta par rapport à la dernière mesure

(26)

ldapmonitor

Problème de répartition de charge entre ldap1 et ldap2 ldap1 98%

ldap2 2%

Nombreuses connexions depuis les services web, owcloud ,

Augmentation du nombre de stations,

mauvaise configuration sur un poste ?

(27)

http, cups, passerelle smtp

• Check_http

– Mesure du temps de réponse pour une URL – Date d’expiration d’un certificat SSL

check_http -w 5 -c 10 -C 30 --ssl -H sbgmail.in2p3.fr -p 465

WARNING - Certificate ‘sbgmail.in2p3.fr' expires in 29 day(s) (07/05/2014 23:59).

• Impressions

– check_cups_queue : Nombre de tâches dans la file, Age de la tâche

– Check_nt+ script externe : idem CUPS

• Passerelle smtp

– Nombre de spams, virus

– Mails légitimes, rejetés, retardés

(28)

Alertes par SMS

• Nagios est compatible avec plusieurs matériel

– RasPI (100€) / foxbox-lx800 (650€)

– Cisco 810 => permet d’avoir un réseau dédié

• Configuration Nagios pour l’envois des SMS

• Utile pour les services critiques

• 2ème solution pour avertir les ASR

• Si le mail ne fonctionne plus

(29)

Nagios et les trends

• Les Trends permettent de suivre les

changements d’état d’un service. On peut

choisir d’afficher une période de 24h ou plus.

En 2013 98%

En 2014 100%

Amélioration liée au changement de solution de virtualisation (vmware vers proxmox )

(30)

Nagios et les Les « Availability Reports »

• Les « Availability Report » permettent de mesurer la disponibilité du service

– pourcentage de temps – unité de temps

• Période d’activité /

période de surveillance

=>horaire de travail des

utilisateurs

(31)

Nagios version 4

• Avenir de Nagios

– Annonce de la dernière version

– Problème entre l’équipe de développement et la communauté d’utilisateurs

– Beaucoup de projets concurrents : centron, cacti, openmns, shinken, zabbix

• Evaluation d’autres produits de supervision plus complets

– Tableaux de bord, Rapport, Indicateurs ITIL

11/09/2014 sébastien Geiger IPHC 31

(32)

Idées d’Indicateurs / tendances

Serveur d’impression (CUPS, Windows)

Remonter le nombre de jobs d’impression, File d’impression bloquée Charge en fonction du temps => horaire des grandes impressions

Imprimantes

Etat : bourrage papier, manque de papier, imprimante hors ligne, Toner presque vide Volumes : Nombre de pages imprimées, nombre de pages par document

Indications par jour, mois, années

=> ventilation des 30 imprimantes et copieurs en fonction de l’utilisation (géographique, type d’impression, coût)

Services Desk ( Machines clientes / Utilisateurs / Logiciels / Remontée des informations de l’inventaire )

nombre de logiciels avec licences, machines => ITop Achat de matériel / logiciel (Linux, Mac, Windows)

Budget des machines achetées, inventaire administratif, devis + factures =>ITop

Budget groupe, service, plateforme =>ITop

Nombre de demandes de support (service desk, connexion réseau, gestion des comptes) =>Itop Incident de sécurité (ZNeTS) =>faire un ticket dans iTop

Et le côté humain, contact avec les utilisateurs du laboratoire

accueillir des visiteurs, accompagner les nouvelles demandes (connexions réseau, outils de synchronisation, formation, migration) => Répartition du temps, comment la mesurer ?

Efficacité du support, satisfaction des utilisateurs, satisfaction des collaborateurs =>quel outil, faire des sondages ? Gestion des coûts => mutualisation des outils et des infrastructures entre les départements du laboratoire

Serveur de licence ou de jeton

Nombre de licences libres / utilisées Statistiques d’utilisation des licences

Autres ?

(33)

Gestion de la performance et IPHC

• Continuer à collecter des informations

– Systèmes de l’IPHC (Linux, Windows, département DRS, DEPE, DSA)

– réseau ? avoir une visualisation des indicateurs clés, complémentaires de la solution déjà utilisée, carte des équipements actifs et des débits

– Services : impression, authentification, gestion des machines – logiciels – Généraliser l’utilisation : sbgmic, sbgli, sbgbackup, serveurs de stockage des

expériences

• Mutualisation de la solution

– Système: service généraux, grille, virtualisation, cloud – Réseau: trafic serveur, switch, routeur, wifi, vpn

– Backup: trafic réseau, volume sauvegardé, heure de backup, charge – Disponibilité des services

– Evolution des métriques sur 5 ans

– Fournir aux utilisateurs un état de l’ensemble de services sous forme d’un tableau de bord

(34)

NagVis

• NagVis est un addon de visualisation pour Nagios

– Permet de visualiser des cartes, avec sous sous- ensembles

– Support du trafic réseau sous forme de weathermap lines

• Exemples

(35)

Définir les orientations

Face à la complexité croissante des technologies de l’information, la gestion des services informatiques s’impose comme un réel défi.

3 pôles

Inventaire, Gestion de configuration: Itop, OcsInventory Supervision: Nagios, SyslogNG

Gestion de la performance : Cacti, MRTG, Zabbix, Shinken, Pnp4Nagios, NagVis,Ganglia

Avantages

Administrateur système et réseau

Identifier rapidement l’impact d’un actif (CI) sur les processus métiers de l’entreprise

Automatiser certaines tâches opérationnelles

Faciliter la documentation des actifs Responsable informatique

Contrôler les coûts opérationnels

Avoir une vision globale du système informatique

Accéder rapidement à des rapports d’analyse consolidés

Responsabiliser ses équipes

Améliorer la satisfaction client Utilisateur de service informatique

Accès simple au catalogue des services IT

Savoir ou en est une demande

Connaître le statut du système d’information

Avoir un point d’entrée unique pour toutes les demandes IT

Inconvénients

Changer les habitudes de chacun Réorganiser les responsabilités

Quel bénéfice pour le fonctionnement du SI

Craintes des collaborateurs, gestion des incidents par ticket

(36)

annexe

• Liens

http://wiki.en.it-processmaps.com/index.php/ITIL_Key_Performance_Indicators liste d’indicateurs

https://www.linkedin.com/today/post/article/20130905053105-64875646-the-75- kpis-every-manager-needs-to-know

75 indicateurs a connaitre d’un point de vu ITIL

https://www.ucisa.ac.uk/~/media/Files/members/activities/ITIL/service_operation/inc ident_management/ITIL_IM%20KPIs%20and%20reports%20pdf.ashx

recommandations

http://www.smartkpis.com/

exemples d’indicateurs.

http://www.leandigestion.fr/elegance-des-indicateurs-smart-kpi/

petite recommandation, d'un point de vue du lean managment

http://www.thinkmind.org/download.php?articleid=emerging_2013_3_30_40082 un article sur les indicateurs dans le cloud, mais cela peux aussi se faire sur nos SI http://www.icorp.com.mx/LinkClick.aspx?fileticket=AaQP5b9JR5Q=&tabid=38 Exemples d’indicateurs pour la gestion d’un parc informatique

Références

Documents relatifs

Mises en chantier (mars) – Après avoir atteint un niveau très élevé d’un point de vue historique en janvier, le nombre de mises en chantier a diminué en février, passant de 284

Depuis le milieu des années 1990, cette baisse semble se poursuivre à un rythme plus faible, tout du moins parmi les usagers de drogues ayant recours aux centres spécialisés.. Le

La marge d’exploitation, s’élevant à 116 millions de dirhams, affiche une forte progression et une nette amélioration du ratio combiné de 4,7 points par rapport à 2010, passant

Elle verra, par ailleurs, le lancement d’extension des activités Technologies et Transactions, pour la première fois, en dehors du Maroc. La poursuite de l’effort d’optimisation

Les sociétés dans lesquelles AFMA exerce directement ou indirectement un contrôle exclusif sont consolidées par intégration globale. 3 filiales ont été créés en fin d’année

Les sociétés dans lesquelles AFMA exerce directement ou indirectement un contrôle exclusif sont consolidées par

9.5 Renforcer la recherche scientifique, perfectionner les capacités technologiques des secteurs industriels de tous les pays, en particulier des pays en développement, notamment

La réunion du sous-groupe de travail du Cnis sur les indicateurs transversaux aura lieu le : Jeudi 9 juillet 2009 de 14h30 à 17h30. Ministère de la Santé, de la jeunesse, des