Chapitre 8. Préparation à un sinistre

Il est relativement facile pour un administrateur système d'oublier de se préparer à un éventuel un sinistre — ce n'est en effet pas une tâche plaisante et il semble toujours y avoir quelquechose de plus urgent à faire. Néanmoins, la négligence en matière de préparation à un sinistre est une des pires choses qu'un administrateur système puisse faire.

Bien que les terribles sinistres sont toujours les premières à venir à l'esprit (telles que les incendies, les inondations ou les orages), les problèmes les plus banals (tels que la coupure accidentelle de câbles par des ouvriers du bâtiment ou même le débordement d'un évier) peuvent s'avérer tout aussi perturbateurs. Dans de telles circonstances, la définition du concept de sinistre qu'un administrateur système doit garder à l'esprit est la suivante : tout événement imprévu pouvant perturber le fonctionnement normal de l'entreprise.

Bien qu'il soit absolument impossible de dresser la liste de tous les différents types de sinistres pouvant se produire, cette section examine les facteurs annonciateurs de chaque type de sinistre afin que tout contact possible avec ces derniers puisse être analysé, non pas en termes de possibilité pouvant résulter en sinistre, mais en termes de réalité entraînant effectivement un sinistre.

8.1. Types de sinistres

En général, quatre facteurs différents pouvent engendrer un sinistre, à savoir :

8.1.1. Pannes matérielles

Les pannes matérielles elles-mêmes sont faciles à comprendre — le matériel tombe en panne et met toute activité à l'arrêt. Ce qui est le plus difficile à comprendre est la nature des pannes et la manière de minimiser votre contact avec ces pannes. Ci-après figurent certaines des approches que vous pouvez utiliser pour limiter l'impact d'un éventuel sinistre.

8.1.1.1. Stockage de matériel de rechange

Dans le cas le plus simple, une exposition due à des problèmes matérielles peut être réduite en gardant du matériel de rechange. Évidemment, cette approche suppose deux choses :

  • D'une part, qu'une personne sur place dispose des compétences nécessaires pour diagnostiquer le problème, identifier le matériel défaillant et le remplacer.

  • D'autre part, que du matériel de rechange soit disponible pour le matériel défaillant.

Ces aspects sont abordés de manière plus détaillée dans les sections suivantes.

8.1.1.1.1. Compétences adéquates

Selon votre expérience passée et le matériel utilisé, le fait de disposer des connaissances nécessaires ne sera peut-être pas un problème. Toutefois, si vous n'avez pas travaillé avec du matériel dans le passé, vous souhaiterez peut-être vous tourner vers des institutions d'enseignement de votre communauté locale pour explorer l'éventail des cours élémentaires consacrés à la réparation de PC. Bien qu'un tel cours ne soit pas en soi et par lui-même suffisant pour vous préparer à affronter des problèmes avec des serveurs de niveau entreprise, il représente une excellente manière d'acquérir de connaissances de base en la matière (telles que la bonne manipulation des outils et composant, procédures de diagnostique élémentaires, etc.).

TuyauAstuce
 

Avant d'adopter une approche consistant à effectuer d'abord les réparations vous-même, assurez-vous que le matériel en question :

  • n'est plus sous garantie

  • n'est couvert par aucun contrat d'assistance/maintenance

Si vous tentez d'effectuer des réparations sur du matériel couvert par une garantie et/ou un contrat d'assistance, vous serez probablement en infraction des conditions de ces accords et risquez par là-même de compromettre la couverture continue de votre matériel.

Toutefois, même en disposant d'un minimum de compétences, il sera peut-être possible de bien diagnostiquer et remplacer le matériel défaillant — à condition que vous choisissiez correctement votre stock de rechange

8.1.1.1.2. Que stocker ?

Cette question illustre la nature à facettes multiples de toute tâche en relation avec la récupération après un sinistre. Lorsque vous considérez le matériel à stocker, gardez à l'esprit les éléments suivants :

  • La durée maximum du temps d'indisponibilité permis

  • Les compétences nécessaires pour effectuer la réparation

  • Le budget disponible pour du matériel de rechange

  • L'espace nécessaire pour le stockage du matériel de rechange

  • Tout autre matériel pouvant utiliser les mêmes pièces de rechange

Chacun de ces aspects a une influence sur les différents types de pièces de rechange qui devraient être stockés. Par exemple, le stockage de systèmes complets pourraient minimiser le temps d'indisponibilité et leur installation ne nécessite que des compétences minimales, mais une telle stratégie serait beaucoup plus coûteuse que le stockage d'un module CPU et RAM de rechange sur une étagère. Néanmoins, cette dépense est peut-être justifiable si votre entreprise dispose de plusieurs dizaines de serveurs identiques qui pourraient profiter d'un seul système de rechange.

Indépendamment de la décision finale, la question suivante, abordée ci-après, est inévitable.

8.1.1.1.2.1. Quelle quantité de matériel stocker ?

Cette question des niveaux de stock pour le matériel de rechange a également de multiples facettes. Toutefois, les principaux aspects sont les suivants :

  • La durée maximum du temps d'indisponibilité permis

  • L'estimation du taux de panne

  • L'estimation de la durée nécessaire au réapprovisionnement de stock

  • Le budget disponible pour du matériel de rechange

  • L'espace nécessaire pour le stockage du matériel de rechange

  • Tout autre matériel pouvant utiliser les mêmes pièces de rechange

Dans le cas extrême où un système peut être indisponible pour un maximum de deux jours et où une pièce de rechange ne serait probablement utilisée qu'une fois par an avec la possibilité de réapprovisionner le stock en un jour, il semblerait raisonnable de ne disposer que d'une pièce de rechange (voire aucune, dans le cas où vous auriez la certitude de pouvoir obtenir une pièce de rechange en 24 heures).

Dans le cas extrême inverse, si un système ne peut pas se permettre d'être indisponible pendant plus de quelques minutes et si une pièce de rechange sera peut-être utilisée une fois par mois (et qu'une nouvelle acquisition pourrait prendre plusieurs semaines), il serait intelligent de conserver sur les étagères une demi-douzaine de pièces de rechange (voire plus).

8.1.1.1.3. Pièces de rechange qui ne sont pas vraiment des pièces de rechange

Dans quel cas une pièce de rechange n'est pas une pièce de rechange ? Dans le cas de matériel qui est utilisé tous les jours mais sert également de pièce de rechange pour un système ayant une priorité supérieure, le cas échéant. Cette approche présente un certain nombre d'avantages, à savoir :

  • Un budget moindre est alloué à des pièces de rechange "non-productives"

  • Le matériel est considéré comme opérationnel

Il existe néanmoins certains inconvénient associés à cette approche, à savoir :

  • Le déroulement normal de la tâche ayant la priorité la plus basse est interrompu

  • Un risque de sinistre existe en cas de panne du matériel doté de la propriété la plus basse (et dans ce cas, le matériel doté de la propriété la plus haute est dépourvu de pièce de rechange)

Dans de telles conditions, il se peut que l'utilisation d'un autre système de production en tant que rechange fonctionne mais le succès de cette approche dépend d'une part de la charge de travail spécifique du système et d'autre part, de l'impact que l'absence du système a sur les opérations générales du centre de données.

8.1.1.2. Contracts d'assistance

Grâce aux contracts d'assistance, le problème des pannes matérielles est du ressort d'une autre personne. La seule chose à faire dans ce cas est de confirmer qu'une panne s'est bien produite et qu'elle ne semble pas être d'origine logicielle. Il vous suffit alors de passer un coup de fil et quelqu'un se rendra sur place pour résoudre le problème.

Cette situation semble tellement simple. Mais comme c'est le cas avec la plupart des choses dans la vie, ce n'est qu'un aspect de la situation. Ci-après figurent certaines des choses que vous devez prendre en considération lors de l'examen d'un contrat d'assistance :

  • Heures de couverture

  • Temps de réponse

  • Disponibilité des pièces

  • Budget disponible

  • Matériel à couvrir

Chacun de ces points sera examiné de manière plus détaillée dansles sections suivantes.

8.1.1.2.1. Heures de couverture

Il existe différents contrats d'assistance répondant à différents besoins ; en la matière, les heures de couverture constituent un point essentiel sur lequel les différents contrats varient. À moins que vous ne soyez prêt à payer un supplément pour le privilège, vous ne pouvez pas prendre le téléphone à tout moment et espérer voir le technicien arriver à votre entreprise aussitôt après.

En fait, selon votre contrat, vous ne pourrez peut-être même pas téléphoner à la société d'assistance avant un jour ou une heure spécifiques, ou si vous pouvez appeler la société, vous ne recevrez pas la visite du technicien avant le jour ou l'heure spécifiés dans votre contrat.

Dans la plupart des contrats, les heures de couverture sont défienies en terme d'heures et de jours pendant lesquels un technicien peut être envoyé sur place. Les heures de couverture les plus courantes sont les suivantes :

  • Du lundi au vendredi, de 09:00 à 17:00

  • Du lundi au vendredi, tous les jours pendant 12/18/24 heures (avec une heure de commencement et de fin de couverture établie d'un commun accord)

  • Du lundi au samedi (ou du lundi au dimanche), mêmes heures que ci-dessus

Comme vous vous en doutez, le coût d'un contrat augmente en fonction des heures de couverture. D'une manière générale, l'alongement des heures de couverture du lundi au vendredi coûte moins cher que l'inclusion du samedi et dimanche.

À ce niveau cependant, il est possible de réduire les coûts si vous êtes prêt à effectuer certaines tâches.

8.1.1.2.1.1. Assistance en atelier

Si dans votre situation vous ne nécessitez que la disponibilité d'un technicien pendant les heures de bureau normales et que vous avez suffisamment d'expérience pour pouvoir déterminer ce qui ne fonctionne pas, vous voudrez peut-être considérer l'assistance en atelier. Ce dernier est connu sous de nombreux noms y compris assistance walk-in (assistance fournie lorsque la personne se déplace) et assistance drop-off (assistance fournie lorsque la personne apporte l'élément posant problème) et le fabricant dispose peut-être d'ateliers d'assistance où les techniciens travaillent sur du matériel apporté par les clients.

L'assistance en atelier a l'avantage d'être aussi rapide que le temps qu'il vous faut pour vous rendre à l'atelier. Vous n'avez pas à attendre qu'un technicien soit disponible et se présente à votre entreprise. Étant donné que les techniciens de l'atelier n'interviennent pas en dehors de l'atelier suite à l'appel d'un client, l'un d'eux sera toujours disponible pour travailler sur votre matériel et ce, dès que vous pourrez le déposer à l'atelier.

Étant donné que l'assistance en atelier est fournie en un seul endroit, il y a de grandes chances pour que toute pièce dont vous auriez besoin y soit disponible. Ainsi, il ne sera pas nécessaire d'envoyer cette pièce du jour au lendemain ou d'attendre que la pièce en question soit acheminer à partir d'un bureau qui l'a justement en stock et se trouvant à plusieurs centaines de kilomètres de votre entreprise.

Ceci étant, il existe un certain nombre de contraintes. La plus évidente est que vous ne pouvez pas choisir les heures d'assistance — vous pouvez obtenir une assistance lorsque l'atelier est ouvert. De plus, les techniciens ne travaillent pas au-delà de leurs heures normales, ainsi, si votre système tombe en panne à 16.30 heures un vendredi et que vous arrivez à apporter votre système à l'atelier juste avant 17.00 heures, les techniciens ne s'occuperont pas de votre système avant de reprendre le travail le lundi suivant.

Une autre contrainte est que l'assistance en atelier dépend de l'existence d'un atelier à proximité. Si votre entreprise se trouve dans une zone métropolitaine, ce ne sera probablement pas un problème, En revanche, pour des entreprises se trouvant dans des zones plus rurales, l'atelier se trouvera peut-être à des centaines de kilomètres.

TuyauAstuce
 

Si vous envisagez d'utiliser une assistance en atelier, considérez bien la chose et prenez en considération les éléments logistiques associés à l'acheminement du matériel vers l'atelier. Utiliserez-vous une voiture de la société ou votre voiture personnelle ? Dans le cas où votre voiture sera utilisée, est-elle suffisamment grande et peut-elle supporter le poids du système ? Quelles sont les implications au niveau de l'assurance ? Faudra-t-il plusieurs personnes pour charger et décharger le matériel ?

Bien que ces préoccupations soient quelque peu banales, elles devraient être considérées avant de prendre la décision de recourir à une assistance en atelier.

8.1.1.2.2. Temps de réponse

Outre les heures de couverture, de nombreux accords d'assistance stipulent un certain niveau de réponse. En d'autres termes, combien de temps s'écoulera-t-il entre le moment où vous téléphonez et l'arrivée du technicien ? Comme vous pouvez facilement vous en douter, plus le temps de réponse est court, plus l'accord d'assistance est cher.

Il y a des limites aux temps de réponses disponibles. Par exemple, le temps de transport pour aller des bureaux du fabricant à votre entreprise influence énormément l'éventail de temps de réponse possibles[1]. Des temps de réponse se situant dans une fourchette de zéro à quatre heures sont généralement perçues comme faisant partie des offres les plus rapides. Des temps de réponse plus longs peuvent s'échelonner entre huit heures (qui est fait devient une assistance "le jour suivant" dans le cas d'unaccord basé sur des heures de bureau normales) et 24 heures. Comme pour tous les autres aspects d'un accord d'assistance, même ces temps de réponse sont négociables — moyennant paiement cela va de soi.

NoteRemarque
 

Bien qu'il ne s'agisse pas d'une situation fréquente, il est important de savoir que des accords d'assistance incluant des closes relatives au temps de réponse peuvent parfois engager la société d'assistance au-delà de son habilité à répondre. Il n'est pas rare qu'une société d'assistance très demandée envoie quelqu'un — n'importe qui — lors d'un appel devant avoir un court temps de réponse, rien que pour honorer son engagement quant au temps de réponse. Cette personne disgnostique apparemment le problème en téléphonant soi-disant "au bureau" afin que quelqu'un apporte la "pièce nécessaire."

En fait, la personne attend simplement qu'une personne vraiment capable de résoudre le problème n'arrive sur place.

Alors qu'il est tout à fait compréhensible que cette situation se produise dans des circonstances extraordinaires (telles que lors de problèmes d'alimentation qui ont endommagés les systèmes dans tout le service d'assistance de la société), si ce type de service correspond au standard d'assistance fourni, vous devriez contacter le directeur de l'assistance et exiger des explications.

Si vos temps de réponses sont rigoureux (et que vous disposez en conséquence d'un gros budget), une certaine approche peut vous permettre de réduire considérablement votre temps de réponse— en fait, à zéro.

8.1.1.2.2.1. Temps de réponse nul — Disponibilité de techniciens sur place

En supposant que vous vous trouviez dans la situation appropriée (vous êtes un des plus grands clients de la région), que vos besoins soient très exigeants (un temps d'indisponibilité de tout ordre étant inacceptable) et que vos ressources financières soient adéquats (s'il est nécessaire de demander le prix, vous ne pouvez probablement pas vous le permettre), il se peut que la disponibilité d'un technicien sur place à plein soit une option. Les avantages de la présence d'un technicien toujours sur place sont évidents :

  • Réponse immédiate à tout problème

  • Approche plus proactive en matière de maintenance de système

Comme vous pouvez vous en douter, cette option peut être très coûteuse, particulièrement si vous avez besoin d'un technicien sur place 24 heures sur 24, 7 jours sur 7. Mais si cette approche est adéquate pour votre entreprise, vous devriez garder à l'esprit un certain nombre de points importants afin de maximiser les avantages.

Tout d'abord, des techniciens faisant partie de l'entreprise ont besoin d'une grande partie des ressources qu'un employé normal utilise, tel que de l'espace de travail, un téléphone, des cartes d'accès appropriées et/ou des clés etc.

Des techniciens travaillant dans l'entreprise ne sont pas très utiles s'ils ne disposent pas des pièces requises. Il est donc important de bien réserver un lieu de stockage sûr où entreposer les pièces de rechange des techniciens. De plus, assurez-vous que votre technicien dispose bien d'un stock de pièces appropriées à votre configuration et que ces pièces ne sont pas systématiquement "pillées" par d'autres techniciens subvenant aux besoins de leurs propres clients.

8.1.1.2.3. Disponibilité des pièces

Il va de soi que la disponibilité des pièces joue un rôle important dans l'exposition de votre entreprise à des pannes de matériel. Dans le cadre d'un accord d'assistance, la disponibilité des pièces prend une tout autre dimension dans la mesure où elle ne s'applique pas seulement à votre entreprise mais également à tout autre client faisant partie de la région du fabricant ayant aussi besoin de ces mêmes pièces. Il se peut qu'une autre entreprise ayant acheté plus de matériel que la votre se voit accorder un traitement préférentiel quant à l'obtention de pièces (et d'ailleurs, de techniciens).

Malheureusement, dans de telles circonstances, il n'y a pas grand chose à faire, mis à part résoudre le problème avec le directeur de l'assistance.

8.1.1.2.4. Budget disponible

Comme nous l'avons souligné précédemment, les contrats d'assistance varient au niveau des prix en fonction de la nature du service fourni. Rappelez-vous que les coûts associés à un contrat d'assistance représentent des dépenses récurrentes ; ainsi, chaque fois que ce dernier arrive à expiration, vous devez renégocier un nouveau contrat et payer à nouveau.

8.1.1.2.5. Matériel à couvrir

C'est à ce niveau que vous pourrez peut-être contribuer à la réduction des dépenses. Imaginez un instant que vous ayez négocié un accord d'assistance offrant la présence d'un technicien sur place 24 heures sur 24, 7 jours sur 7, le stockage de pièces de rechange sur place — bref une assistance haut de gamme. Toute pièce de matériel achetée auprès de ce revendeur est couverte, y compris le PC que la sécrétaire de l'entreprise utilise pour effectuer des tâches dont l'importance n'est pas critique.

Pour ce PC, est-il vraiment nécessaire d'avoir un technicien sur place 24 heures sur 24, 7 jours sur 7 ? Même dans le cas où ce PC serait d'une importance absolument vital pour le travail de la réceptionniste, elle ne travaille que de 09.00 heures à 17.00 heures ; ainsi,il est peu probable que :

  • Le PC sera utilisé entre 17:00 heures et 09:00 heures le lendemain matin (sans faire mention des week-ends)

  • Une panne de ce PC fera une différence quelconque, sauf entre 09:00 heures et 17:00 heures

Dans de telles circonstances, dépenser de l'argent pour l'éventualité que ce PC puisse nécessiter une assistance au milieu de la nuit un samedi soir est un véritable gaspillage d'argent.

La meilleure solution dans ce cas consiste à séparer l'accord d'assistance de manière à ce que le matériel qui n'a pas une importance critique soit regroupé séparément du matériel à fonction vitale. De cette manière, les coûts peuvent être réduits au minimum.

NoteRemarque
 

Si vous avez vingt serveurs configurés de manière identique remplissant une fonction critique pour votre entreprise, vous serez peut-être tenté d'avoir d'une part, un accord offrant une assistance élevée seulement à un ou deux serveurs et d'autre part, un accord différent moins cher pour les autres serveurs. L'idée étant ensuite de dire que le serveur défaillant pendant un week-end, quel qu'il soit, est en fait le serveur couvert par le contrat d'assistance élevée.

N'adoptez surtout pas cette approche. Elle est d'une part malhonnête et d'autre part, la plupart des fabricants utilisent les numéros de série pour identifier les éléments couverts par le contrat. Même si vous arrivez à contourner ces éléments de vérification, une fois votre malhonnêteté mise au grand jour, cette approche finira par coûter beaucoup plus que si vous n'aviez été honnête dès le départ et aviez payé le montant requis pour le type d'assistance dont vous avez besoin.

8.1.2. Pannes logicielles

Les pannes logicielles peuvent entraîner des temps d'indisponibilité plus longs. Par exemple, les propriétaires de systèmes informatiques d'une certaine marque, pourtant bien connue pour ses caractéristiques en matière de haute disponibilité, ont fait l'expérience d'une telle situation. En effet, un bogue dans le code de traitement du temps du système d'exploitation de l'ordinateur a entraîné un plantage des systèmes des clients à une certaine heure, un certain jour. Bien que cette situation précise corresponde plus à un exemple concret de l'impact considérable d'une panne logicielle, d'autres pannes d'origine logicielle peuvent avoir des conséquences certes moins dramatiques, mais néanmoins dévastatrices.

Les pannes logicielles peuvent se produire à l'un des deux niveaux suivants :

  • Système d'exploitation

  • Applications

Chacun des deux types de pannes entraîne des conséquences spécifiques qui sont abordées en détails dans les sections suivantes.

8.1.2.1. Pannes du système d'exploitation

Dans ce type de panne, le système d'exploitation est à l'origine de l'interruption du service. Des pannes de système d'exploitation trouvent leur origine à deux niveaux :

  • Plantage du système (ou crash)

  • Suspension du système (ou hang)

Le point essentiel à garder à l'esprit est que les pannes du système d'exploitation interrompt toutes les tâches que l'ordinateur effectuait au moment de la panne. Dans ce cas, les pannes du système d'exploitation peuvent avoir des conséquences dévastatrices pour la production.

8.1.2.1.1. Plantage du système (ou crash)

Les plantages (ou crashes) se produisent lorsque le système d'exploitation doit faire face à un nombre d'erreurs tellement important qu'elles le placent dans un état tel qu'il ne peut récupérer. Les causes des plantages peuvent aller d'une incapacité à résoudre les problèmes matériels sous-jacents à un bogue dans le code au niveau du noyau compromettant le système d'exploitation. Lors du plantage d'un système d'exploitation, il est nécessaire de le redémarrer afin de pouvoir poursuivre la production.

8.1.2.1.2. Suspension du système (ou hang)

Lorsque le système d'exploitation s'arrête de traiter les événements du système, le système est mis à l'arrêt. Cette situation est connue sous le terme de hang ou système suspendu. Ces situations peuvent se produire par des interblocages de type deadlocks (deux consommateurs de ressources souhaitant utiliser la ressource de l'autre) et livelocks (deux ou plusieurs processus répondant à leurs activités mutuelles, mais n'effectuant en fait aucun travail utile) produisant le même résultat final — un manque total de productivité.

8.1.2.2. Pannes des applications

Contrairement aux pannes du système d'exploitation, les défaillances d'applications peuvent avoir des conséquences plus limitées au niveau des dégâts causés. Selon la nature spécifique de l'application, sa défaillance n'affectera peut-être qu'une personne. En revanche, s'il s'agit d'une application serveur répondant aux besoins d'un vaste groupe d'applications clientes, les conséquences d'une panne seront beaucoup plus étendues.

Les pannes d'applications, comme les défaillances de systèmes d'exploitation, peuvent être causées par des plantages (ou crashes) ou des suspensions d'activité (hangs), la seule différence résidant dans le fait que cette fois-ci, c'est l'application et pas le système qui plante ou suspend son activité.

8.1.2.3. Obtention d'assistance — Assistance logicielle

De la même manière que les revendeurs de matériel offrent une assistance pour leurs produits, de nombreux revendeurs de logiciels mettent à la disposition de leurs clients des paquetages d'assistance. Hormis les différences évidentes (aucun matériel de rechange n'est requis et la plupart du travail nécessaire peut être effectué par téléphone par du personnel d'assistance) les contrats d'assistance logicielle peuvent être assez semblables à ceux d'assistance matérielle.

Tous les niveaux d'assistance fournis par un revendeur logiciel ne sont pas identiques. Ci-après figurent certaines des stratégies d'assistance les plus courremment utilisées de nos jours :

  • Documentation

  • Auto-assistance

  • Assistance Web ou email

  • Assistance téléphonique

  • Assistance sur place

Chacun de ces types d'assistance est décrit de manière plus détaillée dans les sections suivantes.

8.1.2.3.1. Documentation

Bien qu'étant un aspect souvent négligé, la documentation des logiciels peut servir d'outil d'assistance de premier niveau. Qu'elle soit disponible en ligne ou sous une forme écrite, cette documentation contient souvent les informations nécessaires à la résolution de nombreux problèmes.

8.1.2.3.2. Auto-assistance

L'auto-assistance suppose que le client utilise les ressources disponibles en ligne, afin de résoudre leurs propres problèmes d'origine logicielle. Très souvent ces ressources existent sous la forme de FAQ (Forum Aux Questions) basés sur le Web ou sous forme de bases de connaissances.

Les FAQ n'ont souvent que peu ou pas de fonctionnalités de recherche, demandant ainsi au client de parcourir toutes les questions, une à une, dans l'espoir de trouver celle qui répond au problème en question. Les bases de connaissances ont tendance à être plus sophistiquées et permettent de faire des recherches en fonction d'un terme particulier. Ces dernières pouvant également couvrir des domaines plus vastes, elles constituent d'excellent outils pour résoudre des problèmes.

8.1.2.3.3. Assistance Web et email

Bien souvent, un site Web qui ressemble à un site d'auto-assistance inclut également des formulaires basés sur le Web ou des adresses email auxquelles envoyer des questions à l'intentions du personnel d'assistance. Au premier abord, ce type de site constitue un véritable progrès par rapport à un simple site Web d'auto-assistance, mais en réalité, tout dépend des personnes répondant aux emails.

Si le personnel d'assistance est surchargé, il est difficile d'obtenir de leur part les informations nécessaires car leur première préoccupation est de répondre rapidement à chaque email afin de pouvoir passer au suivant. Cette situation existe car presque tout personnel d'assistance est évalué en fonction du nombre de problèmes qu'ils résolvent. Le transfert des problèmes à du personnel plus qualifié est également une opération très difficile car il est n'est pas facile de forcer des réponses opportunes et utiles par le biais d'un email — particulièrement lorsque la principale préoccupation de la personne lisant votre email et d'y répondre aussi rapidement que possible afin de pouvoir traiter l'email suivant.

Le moyen d'obtenir la meilleure assistance possible consiste à aborder dans votre email, tous les aspects du problème dont un technicien d'assistance aurait besoin, telles que :

  • Description claire et précise de la nature du problème

  • Références à tous les numéros de versions pertinents

  • Description de ce que vous avez déjà fait afin d'essayer de résoudre le problème (application des derniers correctifs, redémarrage avec une configuration minimale, etc.).

En fournissant au technicien d'assistance davantage d'informations, vous avez une meilleure chance d'obtenir l'assistance dont vous avez besoin.

8.1.2.3.4. Assistance téléphonique

Comme son nom l'indique, l'assistance téléphonique est offerte en téléphonant à un technicien d'assistance. Ce type d'assistance est très semblable à l'assistance matérielle dans le sens où différents niveaux d'assistance peuvent être disponibles (avec différentes heures de couverture, différents temps de réponse, etc.).

8.1.2.3.5. Assistance sur place

Aussi connue sous le terme de service conseils sur place, l'assistance logicielle sur place est normalement réservée à la résolution de problèmes spécifiques ou à l'apport de modifications critiques telles que l'installation et la configuration initiales de logiciels, des mises à niveau essentielles etc. Comme on pourrait s'y attendre, ce type d'assistance est l'option la plus coûteuse en matière d'assistance logicielle disponible .

Toutefois, il existe un certain nombre de situations dans lesquelles une assistance sur place est l'option adéquate. À titre d'exemple, imaginez une petite entreprise employant un seul administrateur système. Cette dernière est sur le point de déployer son premier serveur de bases de données, mais cette opération (et l'entreprise) n'est pas d'une envergure suffisante pour justifier l'emploi d'un administrateur de base de données attitré. Dans une telle situation, il est souvent meilleur marché de faire venir un spécialiste travaillant pour le revendeur de bases de données afin qu'il effectue le déploiement initial (et de temps à autre dans le futur, selon les besoins), plutôt que de former l'administrateur système pour une compétence qu'il n'utilisera que rarement.

8.1.3. Pannes d'environnement

Bien que le matériel tourne parfaitement, et malgré une configuration logicielle et un fonctionnement normal, des problèmes peuvent toujours survenir. Les problèmes les plus courants se produisant en dehors du système lui-même ont leur origine dans l'environnement physique dans lequel se trouve le système.

Les problèmes liés à l'environnement peuvent être regroupés dans les quatre catégories principales suivantes :

  • Intégrité du bâtiment

  • Électricité

  • Climatisation

  • Climat et environnement extérieur

8.1.3.1. Intégrité du bâtiment

Pour une structure si simple en apparence, un bâtiment remplit de nombreuses fonctions. Il fournit un abri contre les éléments extérieurs (conditions climatiques). Il fournit le microclimat approprié pour le contenu qu'il renferme. Il héberge des mécanismes fournissant de l'électricité et protégeant contre les incendies, le vol et le vendalisme. Le bâtiment remplissant toutes ces fonctions, il n'est pas étonnant que de nombreux aspects ne correspondent pas toujours aux besoins actuels de la situation. Ci-dessous figurent certaines situation possibles qu'il convient d'étudier :

  • Des fuites peuvent se produire dans le toit, laissant entrer de l'eau dans les centres de données.

  • Dans le bâtiment, différents systèmes (telle que les l'alimentation en eau, l'épuration ou la ventilation) peuvent tomber en panne, rendant les lieux inhabitables.

  • Les planchers n'ont peut-être pas une capacité porteuse suffisante pour supporter l'équipement que vous voulez mettre dans le centre de données.

Il est important d'être imaginatif lors de l'élaboration des différents scénarios selon lesquels le bâtiment pourrait être la cause de problèmes. La liste précédente n'a pour intention que de lancer la réflexion sur les bases appropriées.

8.1.3.2. Électricité

Étant donné que l'électricité représente l'élément vital de tout système informatique, les problèmes liés à l'électricité ont une importance essentielle dans l'esprit des administrateurs système, où qu'ils soient. Les problèmes liés à l'électricité prennent bien des aspects différents ; ces derniers sont couverts de manière plus détaillée dans les sections suivantes.

8.1.3.2.1. Sécurité de votre alimentation électrique

Il est tout d'abord nécessaire de déterminer le niveau de sécurité de votre alimentation électrique normale. Comme tout autre centre de données, votre électricité est probablement fournie par une société d'alimentation électrique locale au moyen de câbles électriques. Pour cette raison, il existe certaines limitations quant aux mesures que vous pouvez prendre pour assurer que votre source d'alimentation électrique primaire soit aussi sûre que possible.

TuyauAstuce
 

Les entreprises se trouvant à la limite de la région désservie par une société d'alimentation électrique seront peut-être en mesure de négocier des connexions à deux réseaux différents.

  • Celui desservant votre région

  • Celui de la société d'alimentation électrique voisine

Les coûts associés à l'installation de câbles électriques depuis le réseau voisin étant relativement élevés, cette option n'est vraiment possible que pour les grandes entreprises. Toutefois, ces entreprises estiment qu'à bien des égards, la redondance ainsi obtenue est bien supérieure aux coûts de l'installation.

Les éléments essentiels à vérifier sont les méthodes selon lesquelles l'électricité est acheminée sur la propriété de votre entreprise et ensuite dans le bâtiment. Les câbles électriques sont-ils souterrains ou non ? Les lignes non souterraines sont susceptibles d'être endommagées de différentes manières :

  • par des conditions climatiques extrêmes (glace, vent, éclaires)

  • par des accidents de la circulation qui peuvent causés des dégâts aux poteaux et/ou transformateurs

  • par des animaux errant là où ils ne devraient pas ou raccourcissant les lignes

Ceci étant, les câbles électriques souterrains ont eux aussi des inconvénients qui leur sont propres :

  • Endommagement par des ouvriers du bâtiment creusant au mauvais endroit

  • Inondations

  • Éclaires (bien que de manière plus rare que dans le cas des lignes électriques montées sur des poteaux)

Essayez de repérer les lignes électriques jusque dans votre bâtiment. Est-ce qu'elles vont d'abord dans un transformateur externe ? Existe-t-il une protection contre des accidents causés par une voiture reculant dans le transformateur ou par un arbre tombant sur ce dernier ? Tous les interrupteurs de contrôle sont-ils protégés contre une utilisation non autorisée ?

Une fois ces lignes à l'intérieur de votre bâtiment, pourraient-elles (ou les panneaux auxquels elles sont branchées) être la cause d'autres problèmes ? Par exemple, un problème de plomberie pourrait-il inonder la chambre d'alimentation électrique ?

Continuez à suivre les lignes d'alimentation électrique jusqu'à l'intérieur du centre de données ; existe-t-il d'autres facteurs susceptibles d'interrompre votre alimentation en électricité ? Par exemple, le centre de données partage-t-il un ou plusieurs circuits avec des charges associées à des centres ne fournissant pas des données ? Si tel est le cas, il est fort possible qu'un jour, la charge externe ne déclenche le mécanisme de protection contre les surtensions électriques faisant partie du circuit et n'entraîne par là-même une interruption de l'activité du centre de données.

8.1.3.2.2. Qualité de l'électricité

Il n'est pas suffisant de s'assurer que la source d'alimentation électrique du centre de données est aussi sûre que possible. Il est également nécessaire d'examiner la qualité de l'électricité distribuée au sein du centre de données. Un certain nombre de facteurs doivent être pris en considération, parmi ceux-ci figurent :

Tension

La tension du courant arrivant doit être stable, sans aucune baisse de tension (souvent appelées chutesou augmentation de tension (souvent appelées pointes de courant).

Forme d'onde

La forme d'onde doit avoir l'aspect d'une onde sinusoïdale pure, avec une distortion harmonique totale (ou THD de l'anglaisTotal Harmonic Distortion) minimale.

Fréquence

La fréquence doit être stable (la plupart des pays utilisent une fréquence électrique de 50Hz ou 60Hz).

Interférence

Le courant ne doit contenir aucune interférence radio aussi appelées RFI (de l'anglais Radio Frequency Interference) et aucune interférence électromagnétique ou EMI (de l'anglais Electro-Magnetic Interference).

Courant

L'électricité doit être fournie à une charge électrique suffisante pour faire fonctionner le centre de données.

L'électricité fournie directement par la société d'alimentation électrique ne satisfait généralement pas les normes nécessaires pour un centre de données. Un certain niveau de traitement de l'électricité est par conséquent généralement nécessaire. À cet égard, les différentes approches figurant ci-dessous peuvent être employées :

Protecteurs de surtension

Les protecteurs de surtension — comme leur nom l'indiquent, ils filtrent les pointes de tension dans l'alimentation électrique. La plupart d'entre eux n'ont aucune autre fonction, ne diminuant donc en aucun cas la vulnérabilité du matériel par rapport à tout autre problème d'origine électrique.

Conditionneurs électriques

Les conditionneurs électriques eux ont une fonction plus étendue ; selon le degré de sophistication du dispositif, les conditionneurs électriques répondent à la plupart des types de problèmes soulignés ci-dessus.

Groupes électrogènes

Un groupe électrogène est essentiellement un gros moteur électrique alimenté par une source électrique normale. Le moteur est relié à un gros volant qui est lui relié à un générateur. Le moteur fait tourner le volant et le générateur, qui produit alors une quantité d'électricité suffisante pour faire fonctionner le centre de données. De cette manière, l'électricité du centre de données est, d'un point de vue électrique, séparée de l'électricité venant de l'extérieur, éliminant ainsi tout problème d'origine électrique. Le volant offre également la possibilité de maintenir l'alimentation lors de courtes pannes de courant étant donné qu'il faut quelque seconde avant que le volant ne ralentisse à un tel point qu'il ne soit plus en mesure de produire de l'électricité.

Systèmes UPS

Certains types d'UPS (de l'anglais Uninterruptible Power Supplies) incluent la plupart (sinon toutes) des fonctionnalités de protection d'un conditionneur électrique [2].

Avec les deux types de technologies mentionnés ci-dessus, nous avons commencé à aborder le sujet traversant l'esprit de la plupart des personnes lorsqu'elles pensent à l'alimentation électrique — alimentation électrique de secours. La section suivante examinera différentes approches utilisées pour fournir une alimentation électrique de secours

8.1.3.2.3. Alimentation électrique de secours

Dans le cadre de l'alimentation électrique, tout le monde a déjà entendu le terme coupure de courant qui fait référence à une situation dans laquelle l'alimentation électrique est complètement interrompue pendant une certaine durée allant peut-être d'une fraction de seconde à plusieurs semaines.

Étant donné que la durée des coupures de courant peut varier énormément, il est nécessaire d'envisager une alimentation électrique de secours en utilisant différentes technologies, afin de répondre à des pannes de courant de différentes durées.

TuyauAstuce
 

Les pannes de courant les plus fréquentes durent en général moins de quelques secondes ; des coupures plus longues sont moins fréquentes. Dans de telles circonstances, il est recommandé de vous concentrer d'abord sur la protection contre des pannes de courant de quelques minutes et d'envisager ensuite, une stratégie pour réduire l'exposition à des pannes plus longues.

8.1.3.2.3.1. Alimentation en électricité pour les quelques secondes qui suivent

Étant donné que la majorité des pannes de courant ne durent que quelques secondes, votre solution pour une alimentation électrique de secours doit avoir les deux caractéristiques principales suivantes :

  • Courte durée de transition vers alimentation électrique de secours (durée de transfert)

  • Durée pendant laquelle l'alimentation électrique de secours devra fonctionner ou runtime exprimée des secondes aux minutes

Les solutions disponibles pour une alimentation électrique de secours répondant à ces caractéristiques, sont des groupes électrogènes et les systèmes UPS. Le volant dans le groupe électrogène permet au générateur de continuer à produire de l'électricité pendant suffisamment de temps pour que les coupures de courant de quelques secondes ne soient pas remarquées. Les groupes électrogènes ayant tendance à être volumineux et coûteux, ils ne représentent une solution pratique que pour les centres de données de moyenne et grande taille.

Toutefois, une autre technologie — portant le nom de système UPS — représente une excellente alternative dans les situations où un groupe électrogène est trop onéreux. De plus, un système UPS peut faire face à des pannes de courant de durée plus longue.

8.1.3.2.3.2. Alimentation en électricité pour les quelques secondes qui suivent

Il est possible d'acheter des systèmes UPS de tailles variées — suffisamment petits pour alimenter un simple PC de base pendant cinq minutes ou suffisamment grands pour faire fonctionner tout un centre de données pendant une heure, voire plus.

Les systèmes UPS sont composés des éléments suivants :

  • Un commutateur de transfert pour passer de la source d'alimentation primaire à la source d'alimentation de secours

  • Une batterie pour assurer l'alimentation de secours

  • Un invertisseur pour convertir le courant continu de la batterie en courant alternatif utilisé par l'équipement du centre de données.

Mises à part la taille et la capacité de la batterie du dispositif, les systèmes UPS sont disponibles en deux types différents :

  • Le dispositif UPS offline utilise son invertisseur pour la gestion de l'électricité seulement lorsque la source d'alimentation primaire est défaillante.

  • Le dispositif UPS online utilise son invertisseur pour la gestion de l'électricité en permanence, alimentant l'invertisseur au moyen de sa batterie seulement lorsque la source d'alimentation primaire est défaillante.

Chaque type de système a ses avantages et ses inconvénients. Le système UPS offline est généralement moins onéreux car l'invertisseur ne doit pas être construit pour un fonctionnement à plein temps. Toutefois, un problème au niveau de l'invertisseur d'un système UPS offline ne se remarquera pas (du moins, jusqu'à la prochaine panne de courant).

Les systèmes UPS online ont tendance à être plus à même de fournir une alimentation électrique pure à votre centre de données ; après tout, un système UPS online a pour fonction essentielle de fournir de l'électricité à plein temps.

Mais, indépendamment du type de système UPS choisi, vous devez d'une part estimer correctement la taille de votre système UPS en fonction de la charge anticipée (garantissant ainsi que le système UPS dispose d'une capacité suffisante pour produire de l'électricité à la tension et au courant nécessaires) et d'autre part, déterminez la durée pendant laquelle vous aimeriez pouvoir alimenter votre centre de données au moyen de la batterie.

Afin de déterminer ces informations, il est nécessaire d'identifier auparavant les charges qui devront être fournies par le système UPS. Prenez en considération chaque élément de l'équipement et déterminer la quantité d'électricité qu'il consomme (ces informations sont généralement mentionnées sur l'étiquette se trouvant à proximité du cordon électrique de l'appareil). Prenez note de la tension, du nombre de watts et/ou des ampères. Une fois que vous avez recueilli ces informations pour tous les appareils, vous devez les convertir en VA (Volt-Ampères). Si la consommation est exprimée en watts, vous pouvez utiliser le nombre mentionné comme VA ; si le nombre est en ampères, multipliez-le par le nombre de volts afin d'obtenir la valeur en VA. En additionnant les nombres en VA, vous obtiendrez une estimation en VA que vous pourrez alors utiliser pour choisir le type de système UPS nécessaire.

NoteRemarque
 

D'un point de vue purement scientifique, cette méthode de calcul d'une valeur VA n'est pas tout à fait correcte ; toutefois, afin d'obtenir la valeur VA scientifique, il serait nécessaire de connaître le facteur de puissance de chaque appareil et cette information est rarement, voire jamais, fournie. Dans tous les cas, les valeurs en VA obtenues avec cette méthode peu scientifique reflètent les valeurs s'appliquant en fait aux pires situations et permettent par conséquent de disposer une marge d'erreur telle, que ces valeurs peuvent être considérées comme très sûres.

La détermination de la durée pendant laquelle l'alimentation électrique de secours devra fonctionner (ou runtime) est plus une considération d'ordre commerciale que d'ordre technique — contre quels types de pannes de courant souhaitez-vous vous protéger et quelle somme d'argent êtes-vous prêt à dépenser pour ce faire ? La plupart des centres choisissent des durées maximales qui sont inférieures à une ou deux heures car l'électricité fournie par une batterie devient très onéreuse au-delà de cette durée.

8.1.3.2.3.3. Alimentation en électricité pour les quelques heures qui suivent (et au-delà)

Lorsque les pannes de courant s'étendent sur plusieurs jours, ces choix deviennent encore plus coûteux. Les technologies permettant de faire face à des pannes de courant à long terme se limitent aux générateurs fonctionnant par un moteur de toute sorte — essentiellement diesel et turbine à gaz.

NoteRemarque
 

Gardez bien à l'esprit qu'un générateur utilisant un moteur doit être réapprovisionné en carburant lorsqu'il sont en fonctionnement. Il est donc important de connaître le taux de "consommation" de votre générateur lorsqu'il fonctionne à sa charge maximale, afin de pouvoir planifier un ravitaillement en conséquence.

À ce stade, de très nombreuses options s'offrent à vous si votre entreprise dispose de fonds suffisants. C'est à ce niveau que les experts devraient vous aider à déterminer la meilleure solution pour votre entreprise. Rares sont les administrateurs systèmes disposant de l'expertise nécessaire pour planifier l'acquisition et le déploiement de tels systèmes générateurs d'électricité.

TuyauAstuce
 

Il est possible de louer des générateurs portables de toute taille, permettant ainsi de bénéficier des avantages d'électricité produite par un générateur sans devoir pour cela dépenser les fonds nécessaires à l'achat d'un tel dispositif. Gardez toutefois en mémoire que lors de pannes touchant les alentours de votre région, les générateurs de location seront très demandés et par conséquents très coûteux.

8.1.3.2.4. Planification en vue de pannes de courant prolongées

Alors qu'une coupure de courant de cinq minutes ne représente qu'un désagrément mineur pour le personnel devant travaillé dans des bureaux sans lumière, qu'en est-il d'une coupure d'une heure ? De cinq heures ? D'un jour ? D'une semaine ?

Ceci étant, même si le centre de données fonctionne normalement, une coupure de courant prolongée touchera tôt ou tard votre entreprise. Considérez donc les éléments suivants :

  • Que se passera-t-il s'il n'y a pas de courant pour maintenir un contrôle environnemental dans le centre de données ?

  • Que se passera-t-il s'il n'y a pas de courant pour maintenir un contrôle environnemental dans tout le bâtiment ?

  • Que se passera-t-il s'il n'y a pas de courant pour faire fonctionner les postes de travail personnels, le système téléphonique, les lumières ?

À ce stade, il est important pour votre organisation de déterminer le niveau au-delà duquel une coupure de courant prolongée devra malheureusement être tolérée. Ou, dans le cas où cette situation ne serait pas une option, votre entreprise devra reconsidérer sa capacité à fonctionner de manière entièrement autonome par rapport à l'alimentation électrique du bâtiment ; ceci implique la nécessité de très gros générateurs pour alimenter tout le bâtiment.

Évidemment, même ce niveau de planification ne peut pas avoir lieu dans le vide. Il est vraisemblable que, quelle que soit la cause de la panne de courant prolongée, sont impact se fera sentir sur le monde extérieur à votre entreprise et que ce dernier, à son tour, aura une influence sur la capacité de votre entreprise à poursuivre son activité, même si elle dispose de moyens illimités pour générer de l'électricité.

8.1.3.3. Chauffage, ventilation et climatisation

Les systèmes de chauffage, ventilation et climatisation (ou HVAC de l'anglais Heating, Ventilation, Air Conditioning) utilisés dans les bureaux modernes sont extrêmement sophistiqués. Souvent contrôlés pour des ordinateurs, le système HVAC est un des éléments vitaux permettant de rendre l'environnement de travail agréable.

Les centres de données disposent généralement d'équipement supplémentaire pour la ventilation, essentiellement afin de contrebalancer l'impact sur la température de la chaleur produite par les nombreux ordinateurs et les équipements connexes. Des pannes au niveau du système HVAC peuvent avoir des conséquences dévastatrices sur le fonctionnement continu d'un centre de données. De plus, étant données leur complexité et leur nature électromécanique, les possibilités de pannes sont nombreuses et variées. Ci-dessous figurent un certain nombres d'entre elles :

  • Les éléments du dispositif de ventilation (principalement de grands ventilateurs propulsés par de gros moteurs électriques) peuvent être défaillants en cas de surtension, de problème de roulements, de panne de couroie/poulie, etc.

  • Les éléments du dispositif de refroidissement (souvent appelés refroidisseurs) peuvent perdre du réfrigérant suite à des fuites ou leurs compresseurs et/ou moteurs peuvent se gripper

Les réparations et la maintenance du système HVAC font partie d'un domaine spécialisé— un domaine que l'administrateur système moyen devrait laisser aux experts. La seule chose qu'un administrateur système devrait faire est de s'assurer d'une part que l'équipement HVAC utilisé pour les besoins du centre de données est soumis à des vérifications quotidiennes de bon fonctionnement (voire même plus fréquemment) et d'autre part, qu'il est maintenu selon les instructions du fabricant.

8.1.3.4. Conditions climatiques et environnement extérieur

Certaines conditions climatiques, comme celles mentionnées ci-dessous, peuvent constituer une source de problèmes pour un administrateur système :

  • De fortes tombées de neige ou la glace peuvent empêcher le personnel de se rendre au centre de données et peuvent même boucher les condensateurs de la climatisation, entraînant une hausse des températures dans le centre de données au moment même où personne ne peut aller au centre de données pour prendre les mesures adéquates.

  • Des vents forts peuvent interrompre l'alimentation électrique et les communications alors que des vents très élevés peuvent en fait endommager le bâtiment lui-même.

D'autres conditions climatiques peuvent également être source de problèmes, même si elles ne sont pas aussi connues. Par exemple, des températures excessivement élevées peuvent entraîner une surcharge des systèmes de refroidissement avec des baisses de tension ou coupures de courant dues à une demande d'alimentation trop importante pour le réseau local.

Bien que peu de mesures puissent être prises quant aux aléas climatiques, une connaissance de la manière dont ces derniers peuvent affecter le fonctionnement de votre centre de données peut vous aider à maintenir votre activité, même si le temps devient mauvais.

8.1.4. Erreurs d'origine humaine

On entend souvent dire que les ordinateurs sont parfaits. Le raisonnement derrière cette déclaration est que si on analyse méticuleusement le problème, on découvre que le catalyseur de chaque problème informatique est en fait une erreur d'origine humaine. Cette section examinera les types d'erreur humaines les plus courants et leurs conséquences.

8.1.4.1. Erreurs de la part de l'utilisateur final

Les utilisateurs d'un ordinateur peuvent commettre des erreurs pouvant avoir de graves conséquences. Toutefois, en raison de leur champs d'action généralement limité à celui de l'utilisateur normal, les erreurs des utilisateurs ont tendance à être limitées au niveau local du système. Étant donné que la plupart des utilisateurs interagissent avec un ordinateur presque exclusivement au moyen d'une ou plusieurs applications, c'est au sein de ces applications que se produise la plupart des erreurs commises par l'utilisateur final.

8.1.4.1.1. Mauvaise utilisation d'applications

La mauvaise utilisation d'applications peut causer les problèmes suivants :

  • Écrasement de fichiers par erreur

  • Utilisation de mauvaises données comme entrée d'une application

  • Fichiers nommés et organisés de manière obscure

  • Suppression accidentelle de fichiers

Bien que cette liste puisse être plus étendue, ces exemples suffiront pour illustrer ce point. Étant donné que les utilisateurs n'ont pas les privilèges du super-utilisateur, les erreurs qu'ils sont à même de commettre ne se limitent qu'à leurs propres fichiers. Dans de telles circonstances, la meilleure approche consiste à agir sur les deux fronts suivants :

  • D'une part, éduquer les utilisateurs quant à la bonne utilisation de leurs applications et quant aux bonnes techniques de gestion de fichiers

  • D'autre part, s'assurer que des copies de sauvegarde des fichiers des utilisateurs sont effectuées régulièrement et que le processus de restauration est aussi sobre et rapide que possible.

Outre ces mesures, il n'y a pas grand chose à faire pour garder les erreurs des utilisateurs à un niveau minimal.

8.1.4.2. Erreurs commises par le personnel d'opérations

La relation des opérateurs avec les ordinateurs d'une entreprise est plus engagée que celle des utilisateurs finals. Alors que ces derniers ont tendance à utiliser essentiellement les applications et que leurs erreurs par conséquent se produisent surtout à ce niveau, les opérateurs eux ont tendance à effectuer un éventail de tâches plus vaste. Bien que la nature de ces tâches ait été dictée par d'autres, certaines d'entre elles peuvent inclure l'utilisation d'utilitaires au niveau du système, des situations dans lesquelles la possibilité de causer des dégâts étendus suite à des erreurs, est beaucoup plus élevée. Par conséquent, les différents types d'erreurs qu'un opérateur est à même de commettre sont centrés sur la capacité de ce dernier à suivre les procédures établies pour son usage.

8.1.4.2.1. Non-respect des procédures

Les opérateurs devraient disposer d'ensembles de procédures documentées et disponibles pour presque toutes les actions qu'ils effectue[3]. Il se peut qu'un opérateur ne suive pas les procédures telles qu'elles sont définies. Cette situation peut être dues aux raisons suivantes :

  • À un moment donné dans le passé, l'environnement a été changé et les procédures n'ont jamais été mises à jour. Maintenant, l'environnement change à nouveau, invalidant par là-même les procédures mémorisées par l'opérateur. À ce stade, même si les procédures venaient à être mises à jour (un cas peu vraisemblable étant donné qu'elles ne l'ont pas été dans le passé), l'opérateur n'en aurait pas conscience.

  • L'environnement a été modifié et il n'existe aucune procédure. Le cas présent n'est autre qu'une variation encore plus incontrôlable de la situation précédente.

  • Les procédures existent est sont correctes, mais l'opérateur ne les suivra pas (ou ne pourra les suivre).

Selon l'organigramme de votre entreprise, vous ne pourrez peut-être pas faire plus que de partager vos inquiétudes avec le responsable approprié.Dans tous les cas, la meilleure approche consiste à être disponible afin de pouvoir prendre toute mesure appropriée pour résoudre le problème.

8.1.4.2.2. Erreurs commises lors des procédures

Même si l'opérateur suit les procédures et que ces dernières sont correctes, il est toujours possible que des erreurs soient commises. Si tel est le cas, il se peut que l'opérateur soit négligent (auquel cas le supérieur de l'opérateur en question devrait être consulté).

La situation pourrait être due à une simple erreur. Dans de tels cas, les meilleurs opérateurs se rendront compte qu'il y a un problème et demanderont de l'aide. Encouragez toujours les opérateurs avec lesquels vous travaillez à s'adresser immédiatement aux personnes appropriées s'il ont l'impression qu'il y a un problème. Bien que de nombreux opérateurs soient hautement qualifiés et donc capables de résoudre bien des problèmes eux-mêmes, le fait est que ce n'est pas leur travail. En outre, un problème qui est aggravé par un opérateur bien intentionné a des conséquences néfastes non seulement sur la carrière de cette personne mais également sur votre capacité à résoudre rapidement une situation qui au départ, n'était qu'un petit problème.

8.1.4.3. Erreurs de la part des administrateurs système

Contrairement aux opérateurs, les administrateurs systèmes effectuent un vaste éventail de tâches en utilisant les ordinateurs de l'entreprise. De même, contrairement aux opérateurs, les tâches que les administrateurs système effectuent ne sont souvent pas basées sur des procédures documentées.

Par conséquent, des administrateurs système effectuent quelquefois des tâches qui ne sont pas nécessaires lorsqu'ils ne sont pas prudents dans leur travail. Dans le cadre des responsabilités quotidiennes qui leur incombent, les administrateurs système ont un accès aux systèmes informatiques qui est plus étendu que ce dont ils ont vraiment besoin (sans parler de leurs privilèges de super-utilisateur) d'où la possibilité de rendre, par erreur, le système indisponible.

Les administrateurs système commettent des erreurs soit au niveau d'une mauvaise configuration, soit au niveau de la maintenance.

8.1.4.3.1. Erreurs dues à une mauvaise configuration

Les administrateurs système doivent souvent configurer différents aspects d'un système informatique. Il est possible que cette configuration inclue les aspects suivants :

  • Email

  • Comptes utilisateur

  • Réseau

  • Applications

La liste pourrait être un peu plus longue. La tâche de configuration elle-même peut être très variable ; certaines tâches demandent qu'un fichier texte soit édité (à l'aide d'une des centaines de syntaxes différentes utilisées pour les fichiers de configuration), alors que d'autre nécessitent l'exécution d'un utilitaire de configuration.

Le fait que ces tâches soient toutes traitées de manière différente ne représente rien d'autre qu'un défi supplémentaire au fait que chaque tâche de configuration elle-même, nécessite des connaissances différentes. Par exemple, les connaissances nécessaires pour configurer l'agent de transport de courrier sont fondamentalement différentes de celles nécessaires à la configuration d'une nouvelle connexion réseau.

Suite à ce bref exposé de la situation générale, il est surprenant de voir qu'en fait si peu d'erreurs se produisent. Dans tous les cas, la configuration est, et demeurera, un défi pour les administrateurs système. Existe-t-il un moyen de rendre le processus moins vulnérable aux erreurs ?

8.1.4.3.1.1. Contrôle des changements

Le point commun à toute modification de la configuration est qu'un certain changement a été apporté. Ce dernier peut être d'une grande ou d'une petite envergure. Il s'agit néanmoins d'un changement et il devrait donc être traité d'une manière particulière.

De nombreuses entreprises implémentent un certain type de processus de contrôle. L'intention de ce dernier est d'aider les administrateurs système (et toutes les parties affectées par ces changements) à gérer le processus de changement et de réduire l'exposition de l'entreprise aux erreurs qui pourraient se produire.

Lors du processus de contrôle des changements, chaque changement suit normalement un certain nombre d'étapes différentes. Ci-dessous figure un exemple des étapes pouvant faire partie du processus :

Recherches préliminaires

Les recherches préliminaires tentent de clairement définir :

  • La nature du changement devant avoir lieu

  • Son impact, dans le cas où le changement serait effectué avec succès

  • Une position de repli, dans le cas où le changement échouerait

  • Une évaluation des différents types de défaillances possibles

Les recherches préliminaires incluront peut-être un test du changement proposé qui sera effectué pendant un moment d'indisponibilité prévu ; ou cette étape pourra même aller jusqu'à l'implémentation du changement dans un premier temps, dans un environnement test, sur du matériel test prévu à cet effet.

Organisation

Ce changement est examiné avec une attention toute particulière aux mécanismes mêmes de cette implémentation. L'organisation à effectuer inclut un aperçu des différentes étapes et du cadre temporel de ce changement (ainsi que la série des différentes étapes et le cadre temporel qu'il faudra suivre pour sortir du changement engendré, au cas où un problème surgirait) et une estimation adéquate du temps alloué à l'implémentation du changement, en s'assurant bien que l'opération ne sera pas en conflit avec tout autre activité effectuée au niveau du système.

Le résultat de ce processus se présente souvent sous la forme d'une liste d'étapes que l'administrateur système utilisera lors de l'implémentation du changement. Chacune de ces étapes expose les instructions suivre afin de sortir du changement amorcé, dans le cas où l'étape échouerait. Une estimation des durées de chaque étape est souvent donnée, permettant ainsi à l'administrateur système de déterminer facilement si l'opération se déroule comme prévue ou non.

Exécution

À ce stade, l'exécution même des étapes nécessaires à l'implémentation du changement devrait être claire et simple. Soit le changement est implémenté, soit il est annulé pour revenir à la situation précédente (dans le cas où un problème surgirait).

Contrôle

Que le changement soit implémenté ou non, l'environnement est contrôlé afin de s'assurer que tout fonctionne bien comme prévu.

Documentation

Si le changement a été implémenté, toute documentation existante est mise à jour afin de refléter la configuration qui a été modifiée.

Il est évident que tous les changements de configuration ne nécessitent pas ce degré de détail. La création d'un nouveau compte utilisateur ne devrait nécessiter aucune recherche préliminaire et la programmation de cette tâche ne consistera probablement qu'à déterminer si l'administrateur système dispose de temps libre pour créer le compte. L'étape d'exécution sera tout aussi rapide, l'activité de contrôle consistera peut-être à s'assurer que le compte est bien utilisable et la tâche de documentation elle, prendra vraisemblablement la forme d'un email envoyé au gestionnaire du nouvel utilisateur.

Mais, au fur et à mesure que les changements de configuration deviennent plus complexes, un processus de contrôle des changements plus formel devient alors nécessaire.

8.1.4.3.2. Erreurs commises lors de la maintenance

Ce type d'erreur peut être insidieux car la panification et le suivi effectués lors des opérations de maintenance quotidiennes sont généralement réduits au minimum.

Tous les jours les administrateurs système sont les témoins des conséquences de ce type d'erreur, venant particulièrement de la part de nombreux utilisateurs affirmant catégoriquement qu'il n'ont rien changé — l'ordinateur est tout simplement tombé en panne. L'utilisateur ayant cette conviction ne se rappelle généralement pas ce qu'il a fait, et quant vous serez dans cette même situation, vous ne vous rappellerez certainement pas non plus ce que vous avez fait.

L'élément essentiel à garder à l'esprit est que vous devez être à même de vous rappeler les changements que vous avez apportés lors de la maintenance,si vous voulez être en mesure de résoudre les problèmes rapidement. Il n'est pas réaliste d'envisager un processus minutieux de contrôle des changements portant surdes centaines de petites modifications apportées pendant la journée. Que faire pour effectuer un suivi des centaines de petites choses qu'un administrateur système fait au cours d'une journée ?

La réponse est simple — il faut prendre des notes. Qu'elles se présentent sous une forme quelconque, dans un carnet, dans un assistant personnel ou comme commentaires dans le fichier concerné, prenez des notes. En documentant ce que vous avez fait, vous avez une meilleure chance d'identifier une défaillance liée à un changement que vous avez apporté récemment.

8.1.4.4. Erreurs de la part des techniciens d'assistance

Dans certains cas, les personnes mêmes qui sont supposées vous aider à garantir le bon fonctionnement de vos systèmes en fait, les endommagent. Une telle situation n'est pas due à une conspiration, seulement, toute personne travaillant sur une technologie quelle qu'elle soit, risque pour une raison ou une autre de mettre cette technologie hors service. Il en va de même lorsque les programmeurs en essayant de corriger un bogue, finissent par en créer un autre.

8.1.4.4.1. Matériel mal réparé

Dans ce cas, le technicien a soit échoué dans son diagnostic du problème et a par conséquent effectué une réparation qui n'était pas nécessaire (ou inutile) ou le diagnostic était bon mais la réparation n'a pas été effectuée comme elle aurait dû l'être. Il se peut aussi que la pièce de rechange elle-même ait été défectueuse ou que la procédure adéquate n'ait pas été suivie lors de la réparation.

C'est la raison pour laquelle il est très important de savoir ce que le technicien fait à tout moment. Ce faisant, vous serez plus attentif aux défaillances qui semblent être liées d'une manière ou d'une autre, au problème d'origine. Cette approche permet de mettre le technicien sur la bonne voix, dans le cas où un problème surviendrait ; autrement, il y a une forte chance que le technicien considère cette erreur comme étant nouvelle et complètement indépendante de celle qui devait être corrigée au départ. Dans de telles circonstances, les techniciens ne perdent pas de temps à essayer de résoudre un faux problème.

8.1.4.4.2. Correction d'une erreur et création d'une autre

Parfois, bien que le problème ait été diagnostiqué et résolu avec succès, un autre problème surgit à sa place. Le module CPU a été remplacé, mais le sac anti-statique dans lequel il se trouvait a été oublié dans le placard et a bloqué le ventilateur entraînant un arrêt dû à une température trop élevée. Ou le disque dur défaillant de la matrice RAID a bien été remplacé mais une personne a butté contre le connecteur d'un autre disque et l'a accidentellement déconnecté si bien que la matrice est toujours hors service.

De tels incidents peuvent être dûs à des négligences chroniques ou à une simple erreur. Dans tous les cas, vous devriez toujours passer en revue les modifications apportées par le technicien et vous assurer que le système fonctionne bien correctement avant que le technicien ne parte.

Notes

[1]

Et cette durée serait très probablement considérée comme le temps de réponse donné dans le meilleur des cas, puisque les techniciens sont généralement responsables de régions que s'étendent bien au-delà de leurs bureaux et ce, tout azimut. Si vous vous trouvez à une des extrémités de leur territoire et que le seul technicien disponible se trouve lui à l'extrémité opposée, le temps de réponse sera évidemment beaucoup plus long

[2]

La technologie UPS est examinée de manière plus détaillée dans la Section 8.1.3.2.3.2.

[3]

Si les opérateurs de votre entreprise ne disposent pas d'un ensemble de procédures de fonctionnement, collaborez avec eux, avec la direction de votre entreprise et avec vos utilisateurs afin de les créer. Sans procédures, votre centre de donnée sera incontrôlable et rencontrera vraisemblablement de graves problèmes au cours du déroulement de son activité quotidienne.