Projet

Général

Profil

Anomalie #126

Freeze de gw le 8 decembre 2011

Ajouté par Laurent GUERBY il y a environ 13 ans. Mis à jour il y a plus de 6 ans.

Statut:
Fermé
Priorité:
Normal
Assigné à:
-
Catégorie:
-
Début:
08/12/2011
Echéance:
% réalisé:

0%

Temps estimé:

Description

Notre serveur gw a Paris a cessé de répondre au ping a 1h55 ce matin.
Je l'ai redémarré via le controle a distance IPMI a 6h35,
la console IPMI ne repondait plus par contre. gw était up
depuis le 15 mars 2011.

Le routage depuis Toulouse a automatiquement basculé sur le transit
Jaguar sans coupure visible pour les utilisateurs, avec
seulement la limitation de débit a 10 Mbit/s en dehors des
peer du TouIX.

Il n'y a pas de reprise automatique des IP de gw sur
notre routeur a Toulouse par contre donc les tunnels
vers Saint-Gaudens, Mones et Trebons ont coupé.

Apres le reboot de gw tous les services
sont revenus automatiquement.

Historique

#1 Mis à jour par Laurent GUERBY il y a environ 13 ans

#2 Mis à jour par Laurent GUERBY il y a plus de 12 ans

Notre serveur gw (Dell R210) a Paris a cessé de répondre au ping le 20120710 vers 13h08.
Je l'ai redémarré via le controle a distance IPMI a 13h19. gw était up
depuis le 8 decembre 2011.

Le routage depuis Toulouse a automatiquement basculé sur le transit
Jaguar sans coupure visible pour les utilisateurs, avec
seulement la limitation de débit a 10 Mbit/s en dehors des
peer du TouIX.

Il n'y a pas de reprise automatique des IP de gw sur notre routeur a
Toulouse par contre donc les tunnels depuis Saint-Gaudens, Mones et
Trebons ont coupé (ils sont configurés vers 91.224.148.1 en UDP).

Apres le reboot de gw tous les services sont revenus automatiquement
incluant le routage BGP qui a rebasculé sur Paris et les tunnels.

Je pense que le freeze est du a un bug noyau : dans /var/log/kern.log
il y a eu quelques messages inhabituels la semaine derniere :

Jul 4 00:10:55 gw kernel: [17990459.027471] icmpv6_send: no reply to icmp error
Jul 4 06:50:03 gw kernel: [18446744027.802786] BUG: soft lockup - CPU#0 stuck for 17163091969s! [bird:28607]
...
Jul 4 16:52:34 gw kernel: [36024.074950] htb: too many events!
...

Lors du reboot un nouveau kernel a été mis en place:

Dec 8 06:33:12 gw kernel: [ 0.000000] Linux version 2.6.32-5-amd64 (Debian 2.6.32-30) () (gcc version 4.3.5 (Debian 4.3.5-4) ) #1 SMP Wed Jan 12 03:40:32 UTC 2011
Jul 10 13:19:47 gw kernel: [ 0.000000] Linux version 2.6.32-5-amd64 (Debian 2.6.32-41squeeze2) () (gcc version 4.3.5 (Debian 4.3.5-4) ) #1 SMP Thu Mar 22 17:26:33 UTC 2012

Au prochain reboot gw aura au moins 2.6.32-44.

#3 Mis à jour par Matthieu Herrb il y a plus de 6 ans

  • Statut changé de Nouveau à Fermé

fermeture de tous les vieux tickets non suivis depuis plusieurs années

Formats disponibles : Atom PDF