Cluster Ganeti » Historique » Version 37

« Précédent - Version 37/135 (diff) - Suivant » - Version actuelle
Laurent GUERBY, 21/08/2012 08:49

Cluster Ganeti¶

Contenu
Cluster Ganeti

Liens¶

talk par iustin a google I/O sur ganeti : a 28:00 http://youtu.be/TELArK6SmyY
extlinux pour ganeti http://anonscm.debian.org/gitweb/?p=mirror/dsa-puppet.git;a=blob;f=modules/ganeti2/templates/instance-debootstrap/hooks/20-dsa-install-bootloader.erb;h=2bbba5e762b512c1c7b081049cf8ffd6cc472f96;hb=master

Installation from scratch¶

Ganeti¶

apt-get install ganeti2

configuration LVM¶

Dans le fichier /etc/lvm/lvm.conf changer le filter lvm pour:

# filter = [ "a/.*/" ]
filter = ["r|/dev/cdrom|", "r|/dev/drbd[0-9]+|" ]

Evite les soucis avec DRBD (ie: pour que la machine hÃ´te ne detecte pas les LVM qui sont dans le VM lors du vgscan and co)

configuration DRBD¶

activer drbd

#Â echo "options drbd minor_count=128 usermode_helper=/bin/true" >> /etc/modprobe.d/drbd-ganeti.conf
#Â rmmod drbd
# modprobe drbd
# cat /sys/module/drbd/parameters/usermode_helper 
/bin/true

Partitionnement¶

# fdisk /dev/sda
new primary part
hex code 8e

# partprobe

CrÃ©ation du VG pour ganeti¶

pvcreate /dev/sda2 
vgcreate vg_ganeti /dev/sda2

S'il existe dÃ©jÃ vider le volume group et le recreer

pvs
vgs
lvs
lvremove
vgcreate kvmvg /dev/sdb... #TODO check

Network¶

# dans /etc/network/interfaces
# The primary network interface
auto eth0
iface eth0 inet manual

# dans /etc/rc.local     
ip l set eth0 up    

brctl addbr ganeti-br0
ip li set ganeti-br0 up
brctl addif ganeti-br0 eth0

ip a a 10.42.0.13/24 dev ganeti-br0
ip r a default via 10.42.0.1

DNS¶

# Dans /etc/hosts              
10.42.0.10 tmaster.thsf tmaster
10.42.0.11 t1.thsf t1     
10.42.0.12 t2.thsf t2
10.42.0.13 t3.thsf t3

Ganeti Service¶

On master:

Initialiser le cluster:

gnt-cluster init --nic-parameters mode=bridged,link=ganeti-br0 --master-netdev=ganeti-br0 \                       
 --vg-name vg_ganeti --enabled-hypervisors=kvm tmaster.thsf

Ajouter un noeud au cluster (t2):

gnt-node add t2

Installation d'outils d'administration de ganeti:

apt-get install ganeti-htools ganeti-instance-debootstrap

Ajout d'une VM

# vi /etc/hosts
10.42.0.101 vm1.thsf vm1

gnt-cluster copyfile /etc/hosts

gnt-instance add -H kernel_path=/boot/vmlinuz-3.2.0-2-amd64,initrd_path=/boot/initrd.img-3.2.0-2-amd64 \
-t drbd -B memory=512M,vcpus=1 --disk 0:size=5G -I hail -o debootstrap+default vm1.thsf

Administration des VMs¶

Gestion d'un gnt-instance migrate qui reste bloquer¶

SymptÃ´me: la progression du "gnt-instance migrate <vmname>" ne progresse plus"

# gnt-instance info -s nagios  | grep 'node.:' -A1
      nodeA:       h4.tetaneutral.net, minor=18
      nodeB:       h6.tetaneutral.net, minor=27
      port:        12589

Donc si on regarde sur la machine primaire et secondaire l'Ã©tat:

# grep '18:' -A5 /proc/drbd # (et sur la secondaire: grep '27:' -A5 /proc/drbd)
0: cs:SyncSource st:Primary/Primary ds:UpToDate/UpToDate C r---
ns:601729944 nr:0 dw:0 dr:601737980 al:0 bm:429909 lo:0 pe:0 ua:0 ap:0 oos:0
[===================>] sync'ed:100.0% (965/6869678)M 
stalled

Si on tente un commande drbd on a:

# drbdsetup /dev/drbd18 sh-status
(longue attente)
No response from the DRBD driver! Is the module loaded?

Bref Drbd est dans les choux, ca semble Ãªtre un bug connu des versions <= 8.3.12

Sources :

Pour rÃ©parer sur la machine h4, le node primaire, faire:

# /etc/ganeti/iptables-to-reset-drbd-connection.sh 12589 # <-- 12589 le port de drbd rÃ©cupÃ©rÃ© plus haut

** Attention Ã  Ãªtre sur la bonne machine **
Pour couper la connection
iptables -I INPUT -p tcp --dport 12589 -j REJECT --reject-with tcp-reset
iptables -I INPUT -p tcp --sport 12589 -j REJECT --reject-with tcp-reset
iptables -I OUTPUT -p tcp --dport 12589 -j REJECT --reject-with tcp-reset
iptables -I OUTPUT -p tcp --sport 12589 -j REJECT --reject-with tcp-reset

Pour remettre la connection
iptables -D INPUT -p tcp --dport 12589 -j REJECT --reject-with tcp-reset
iptables -D INPUT -p tcp --sport 12589 -j REJECT --reject-with tcp-reset
iptables -D OUTPUT -p tcp --dport 12589 -j REJECT --reject-with tcp-reset
iptables -D OUTPUT -p tcp --sport 12589 -j REJECT --reject-with tcp-reset

ExÃ©cuter la premiÃ¨re partie puis vÃ©rifier dans /proc/drbd qui celui-ci est en WFConnection.

Puis rÃ©tablir la connexion avec la seconde partie et vÃ©rifier /proc/drbd que c'est bien reconnectÃ©.

Ensuite si ganeti n'a pas vu la rÃ©paration, faire sur le master node et le node primaire de la machine:

# /etc/init.d/ganeti restart

Ceci passe en error le job de migration

Puis sur le master node, on nettoye les rÃ©sidu de la migration Ã©chouÃ©e:

# gnt-instance migrate --cleanup nagios

Gestion d'un disque en I/O error¶

First put the disk in failure offline:

echo offline > /sys/block/sdb/device/state

Then we need to remove the volume group, here /dev/kvmvg
We need to do it manually because vgremove will not work in this case

/dev/kvmvg# for i in *; do echo === $(date) == $i ; dmsetup remove /dev/kvmvg/"$i"; echo $?; done

This will leave a few lv when ganeti hasnt detected for some reason the disk failure.
For those left we need to force drbd to go Diskless, use either gnt-instance info or ls -l /var/run/ganeti/instance-disks/ or /var/lib/ganeti/config.data to find the VM and /dev/drbdNNN then

drbdsetup /dev/drbd47 detach

Then gnt-instance info VM to force ganeti to recognize the disk failure (it will take a few minutes)

Then dmsetup remove will work.

After the last dmsetup remove /dev/kvmvg will disappear.

Now you can physically remove the disk and plug a new disk on a new SATA port (on the same SATA port the kernel didn't recognize the new drive)
Then create a LVM partition then vgcreate kvmvg /dev/sdX

Now we need to recreate redundancy

On the still running VM you can use

gnt-instance replace-disks --submit -a VMname

On the stopped VM you need to do manually

gnt-instance replace-disks --submit -p VMname # if primary to reconstruct
gnt-instance replace-disks --submit -s VMname # if secondary to reconstruct

At 15 MByte/s 1 TB to reconstruct will take about 18h30.

Before remove the disk from the server, we must prepare the disk for unplug:

echo 1 > /sys/block/sdX/device/delete

Links:

http://docs.ganeti.org/ganeti/2.5/html/admin.html#preparing-for-disk-operations
http://docs.ganeti.org/ganeti/2.5/html/admin.html#generalized-storage-handling
http://www.lancealbertson.com/2011/02/handling-hdd-failures-with-ganeti/
http://www.sakana.fr/blog/2009/05/04/linux-sata-hot-plug-unplug/

Demarrer et arrÃªter une instance ?¶

gnt-instance start vm1
gnt-instance stop vm1

Si pendant l'extinction de la VM le message suivant apparait:

WARNING: Could not shutdown block device disk/0 on node h6.tetaneutral.net: drbd45: can't shutdown drbd device: /dev/drbd45: State change failed: (-12) Device is held open by someone

Sur h6 on peut remarquer que l'on a un status non nominal sur drbd:

$ grep -A4 45: /proc/drbd
45: cs:WFConnection ro:Primary/Unknown ds:UpToDate/DUnknown C r----
    ns:68584404 nr:0 dw:67728388 dr:2484540 al:535 bm:237 lo:0 pe:0 ua:0 ap:0 ep:1 wo:b oos:0

Pour rÃ©soudre le problÃ©me taper:

drbdsetup /dev/drbd45 down

Si le message persiste, il faut vÃ©rifier que plus aucun processus n'utilise le drbd45 sur h6, par exemple vÃ©rifier devmapper:

dmsetup ls | grep drbd45

RÃ©fÃ©rence dans la doc ganeti: http://docs.ganeti.org/ganeti/2.5/html/walkthrough.html#in-use-disks-at-instance-shutdown

Comment tout savoir sur une vm ?¶

gnt-instance info vm1

DÃ©placement le(s) disque(s) dur d'une VM¶

Si la machine a ces disques au format plain (sans drbd), taper:

gnt-instance stop vm1
gnt-instance move -n h6 vm1
gnt-instance start vm1

Si la machine utilise drbd (uniquement le disque de la node secondaire bascule):

gnt-instance replace-disks -n h6 vm1

Si vous voulais dÃ©placer l'autre disque du drbd, il faut basculer la machine, puis refaire la mÃªme chose

Basculer/migrer une machine qui utilise drbd¶

Bascule avec arret de la machine:

gnt-instance failover vm1

Sans arrÃªt, migration Ã chaud:

gnt-instance migrate vm1

En cas de soucis primaire/secondaire:

gnt-instance migrate --cleanup vm1

CrÃ©ation d'une machine¶

Un script est prÃ©sent sur h1 voici ca doc:

# /root/gnt-addvm
usage: gnt-addvm [options] VIRTUAL_MACHINE_HOSTNAME
       -o OS | --os OS          OS can be default natty32 natty64 sid64 squeeze32 squeeze64 wheezy64
       -s SIZE | --size SIZE    default SIZE is 10G
       -m MEM | --mem MEM       default MEM is 256M
       -c CPU | --cpu CPU               default CPU is 1
       -n NODES | --nodes NODES         default NODES is
       -d MODE | --disk MODE      default MODE is drbd
       -q | --quick             don't wait drbd sync
       --dry-run                        show executed command
       --cdrom PATH             installation from iso file

Supprimer une machine¶

gnt-instance remove vm1

si la vm est en drbd et que une des nodes du drbd ne fonctionne plus

gnt-instance remove --ignore-failures vm1

Changer les cractÃ©ristique d'une VM, upgrade disk, net, cpu, mem¶

Et hop une nouvelle carte rÃ©seau sur le vlan tsf

gnt-instance  modify --net add:link=br1 vm1

Un petit disk en plus

gnt-instance  modify --disk add:size=50G vm1

Un petite upgrade cpu et mÃ©moire

gnt-instance modify -B vcpus=2,memory=512M vm1

Reboot pour prendre en compte le tout

gnt-instance reboot -t full vm1

Je voudrais bien booter mon kernel ! ou un cdrom
Je peux dÃ©sactivÃ© le kernel commun pour une vm

gnt-instance modify -H kernel_path="" vm1

Ou booter sur le cdrom pour le prochain dÃ©marrage commme ceci:

gnt-instance start -H boot_order=cdrom,cdrom_image_path=/path/to/debian-504-amd64-netinst.iso vm1

Relocaliser les disques secondaires si un serveur est HS.¶

Ceci dÃ©place le disque redondant (qui n'est plus prÃ©sent si le serveur est HS) est le reconstruit sur un autre serveur

gnt-instance replace-disks -I hail vm1

Importer une image disque venant de lâextÃ©rieur¶

Convertion de l'image au format raw (si c'est pas dÃ©jÃ le cas)

kvm-img convert DISQUEVM.qcow -O raw DISQUEVM.raw

Copie du disque au format raw sur un lvm

size=$(kvm-img info DISQUEVM.raw | sed -n -e 's/^virtual size:[^(]*(\([[:digit:]]*\).*)/\1/gp')
lvcreate -L ${size}b -n lv_migration_DISQUEVM kvmvg
dd if=DISQUEVM.raw of=/dev/kvmvg/lv_migration_DISQUEVM

CrÃ©ation de la VM

gnt-instance add -B memory=512M --no-start -t plain -n $(hostname) --disk 0:adopt=lv_migration_DISQUEVM --net 0 -o debootstrap+default VMNAME.tetaneutral.net

Et pour finir, on transforme le format de disque de la VM en drbd:

gnt-instance modify -t drbd -n h6 VMNAME.tetaneutral.net

Copier une VM sur une autre machine¶

Seul la machine h1 a l'espace configurer pour faire des dumps de machine virtuelle.

On lance un backup de celle-ci (attention cette commande Ã©teint la machine):

gnt-backup export -n h1 sileht2

Les fichiers sont ensuite sur h1 dans /exports/sileht2.tetaneutral.net/

Le fichier qui nous intÃ©resse est celui qui fini par .snap qui est le disque dur au format raw de la VM, dans mon cas:

09d836a0-22e0-4ea4-9104-c301351bb2e2.disk0_data.snap

Pour la dÃ©monstration je copie ce fichier sur h2:

scp /exportfs/sileht2.tetaneutral.net/09d836a0-22e0-4ea4-9104-c301351bb2e2.disk0_data.snap h2:/root/sileht.raw

Et je le test avec kvm:

kvm -m 256 -drive file=sileht.raw,format=raw,if=virtio,boot=on,cache=writeback -usbdevice tablet -netdev type=tap,id=netdev0,fd=10 -device virtio-net-pci,mac=aa:00:00:62:e3:a0,netdev=netdev0

A savoir l'image utilise les pilotes kvm "virtio", si on souhaite utiliser la VM avec un autre logiciel de virtualisation,
il faudra modifiÃ© le fstab pour mettre /dev/sda1 au lieu de /dev/vda1 et supprimer le fichier /etc/udev/rules.d/70-persistent-net.rules

Monter une partition de machine virtuelle sur la machine hÃ´te (!Attention DANGER!)¶

Arret de la machine et activation des disques

 $ gnt-instance stop VMNAME.tetaneutral.net
 $ gnt-instance activate-disks VMNAME.tetaneutral.net
 h1.tetaneutral.net:disk/0:/dev/drbd34

Ensuite pour voir les partitions du disque, ici le /dev/drbd34:

kpartx -l /dev/drbd34

On crÃ©Ã© ensuite les partitions dans /dev avec devmapper

kpartx -a /dev/drbd34
ls -la /dev/mapper/drbd34*

A partir de maintenant on peut faire mumuse avec la partition, exemple:

mount /dev/mapper/drbd34p1 /mnt/
....
umount /mnt

Puis trÃ¨s important, il faut nettoyer devmapper et dÃ©activer les disk pour ganeti

kpartx -d /dev/drbd34
gnt-instance deactivate-disks VMNAME.tetaneutral.net
gnt-instance start VMNAME.tetaneutral.net

Administration des serveurs/nodes¶

Ãteindre/rebooter provisoirement un des serveurs sans coupure de service¶

La procÃ©dure est la suivante:
- migration des machines virtuelles sur leurs secondaires
- Arret/Ralummage ou reboot du serveur
- remigration des machines virtuelles sur le serveur hX

gnt-node migrate hX
shutdown -h now # ou reboot
hbal -L --no-disk-moves -X

La resynchro drbd est automatique.

gnt-node migrate hX # gnt-node failover hX
gnt-node evacuate -I hail hX
gnt-node modify -O yes hX

Sur le masternode normalement h1 faire:

gnt-cluster verify

Change le node principal (masternode) de "ganeti", celui qui permet de lancer des commandes ganeti.¶

Allez sur un node, taper ceci et il deviendra "maternode":

gnt-node masterfailover

Gestion des fichiers de configuration (ie: /etc/ganeti, /etc/hosts, /etc/rc.local, ...)¶

Tous les fichiers de configuration Ã synchroniser entre toutes les nodes du cluster sont contenues dans ce script:

/etc/ganeti/pushconf.sh

Le lancer recopie ces fichiers du masternode vers les autres nodes.

On bascule les machines qui n'ont pas le failover en automatique

gnt-node failover [ --ignore-consistency ] h2

le --ignore-consistency permet de forcer ganeti Ã ne pas contrÃ´ler le disk avant le basculement

gnt-node evacuate [--early-release] -I hail hX

le --early-release permet de forcer ganeti Ã ne pas contrÃ´ler le disk avant le basculement (utile si le disk de h2 est HS)

gnt-node modify -O yes h2

gnt-node modify -O no h2
hbal -L -X

Setup d'un nouveau NODE¶

Installation¶

Installer squeeze basique avec juste ssh
Ajouter wheezy dans /etc/apt/sources.list

# deb http://ftp.fr.debian.org/debian/ squeeze main
deb http://ftp.fr.debian.org/debian/ squeeze main contrib non-free
deb-src http://ftp.fr.debian.org/debian/ squeeze main contrib non-free
deb http://ftp.fr.debian.org/debian/ sid main contrib non-free
deb-src http://ftp.fr.debian.org/debian/ sid main contrib non-free
deb http://ftp.de.debian.org/debian-backports/ squeeze-backports main contrib non-free
deb-src http://ftp.de.debian.org/debian-backports/ squeeze-backports main contrib non-free
deb http://security.debian.org/ squeeze/updates main
deb-src http://security.debian.org/ squeeze/updates main
# squeeze-updates, previously known as 'volatile'
deb http://ftp.fr.debian.org/debian/ squeeze-updates main
deb-src http://ftp.fr.debian.org/debian/ squeeze-updates main

Allouer un port avec 3131, 3175, 3195 tagged sur le procurve
Monter le reseau manuellement IP X

ip link add link eth0 name eth0.3131 type vlan id 3131
ip link set eth0.3131 up
ip addr add 91.224.149.15X/25 dev eth0.3131

Creer /etc/rc.local.conf avec X et Y

IP_3131="91.224.149.15X/25" 
GW_3131="91.224.149.254" 
IP_3175="192.168.3.Y/24" 
KVM_DISKS="sdb"

Installer les packages

#TODO liste en fichier commit qqpart
#TODO: passer a une version compilÃ©e en local de ganeti pour eviter les update de version wheezy
dpkg --get-selections | ssh root@h48 dpkg --set-selections
ssh root@h48 apt-get dselect-upgrade

munin:
dans /etc/munin/munin-node.conf ajouter: allow ^91\.224\.149\.194$
TODO patch munin Loic
http://trac.fsffrance.org/wiki/PatchInventory#Munin
reboot
Installer le node dans le cluster ganeti apres s'etre assure que la version de ganeti est bien la meme

dpkg -l|grep -i ganeti
gnt-node add h48
/etc/ganeti/pushconf.sh

Appliquer ce patch Ã ganeti-instance-debootstrap:

--- /usr/share/ganeti/os/debootstrap/common.sh.ori  2010-09-15 22:34:12.000000000 +0200
+++ /usr/share/ganeti/os/debootstrap/common.sh  2011-07-27 12:33:55.695617766 +0200
@@ -91,7 +91,7 @@
# some versions of sfdisk need manual specification of
# head/sectors for devices such as drbd which don't
# report geometry
-  sfdisk -H 255 -S 63 --quiet --Linux "$1" <<EOF
+  sfdisk -H 255 -S 63 -D --quiet --Linux "$1" <<EOF
0,,L,*
EOF
}

Pilotes additionnel¶

Sur h1,h2,h4,h5 et h6, le pilote (r8169.ko) de la carte rÃ©seau (r8168/8111) provoque des kernels panic, il a Ã©tÃ© remplacÃ© la version du constructeur (r8168.ko).
Pilote dispo ici: (http://www.realtek.com/downloads/downloadsView.aspx?Langid=1&PNid=13&PFid=5&Level=5&Conn=4&DownTypeID=3&GetDown=false)

apt-get install gcc dkms
cd /usr/src
wget http://url_to_pilot/r8168-8.024.00.tar.bz2
tar -xjf r8168-8.024.00.tar.bz2
cd r8168-8.024.00
cat > dkms.conf << EOF
PACKAGE_NAME=r8168
PACKAGE_VERSION=8.024.00
MAKE[0]="make" 
BUILT_MODULE_NAME[0]=r8168
BUILT_MODULE_LOCATION[0]="src/" 
DEST_MODULE_LOCATION[0]="/kernel/updates/dkms" 
AUTOINSTALL="YES" 
EOF
dkms add -m r8168 -v 8.024.00
dkms build -m r8168 -v 8.024.00
dkms install -m r8168 -v 8.024.00
echo "r8168" >> /etc/modules
echo "blacklist r8169" >> /etc/modprobe.d/blacklist-network.conf
update-initramfs -u
reboot

Pour les machines a base de e1000e:

apt-get install gcc dkms
cd /usr/src
wget http://downloadmirror.intel.com/15817/eng/e1000e-1.3.17.tar.gz
tar -xzf e1000e-1.3.17.tar.gz
cd e1000e-1.3.17
cat > dkms.conf << EOF
PACKAGE_NAME=e1000e
PACKAGE_VERSION=1.3.17
CLEAN="make -C src/ clean" 
MAKE[0]="make -C src/" 
BUILT_MODULE_NAME[0]=e1000e
BUILT_MODULE_LOCATION[0]="src/" 
DEST_MODULE_LOCATION[0]="/kernel/updates/dkms" 
AUTOINSTALL="YES" 
EOF
dkms add -m e1000e -v 1.3.17
dkms build -m e1000e -v 1.3.17
dkms install -m e1000e -v 1.3.17
reboot

Annexe¶

le script /etc/rc.local, qui s'occupe de prÃ©parer la configuration rÃ©seaux pour ganeti (avec les vlan, bridge and co)
le script /etc/rc.local.conf, contient les adresses IP de la machine et les gw

Protection VNC¶

Le VNC de kvm est utiliser sur chaque MV.
Des rÃ¨gles de firewall sont automatiquement mise en place par le script /etc/ganeti/vnc-firewall pour que seul la machine gntwebmgr.tetaneutral.net soit autoriser a s'y connecter
Ce script est appelÃ© par les hooks ganeti.

Le script ifup de ganeti pour kvm a Ã©tÃ© modifier (ie: /etc/ganeti/kvm-vif-bridge) pour Ã©crire la relation entre la vm, le numero de ces interfaces rÃ©seaux et ces tap.
Le fichier prends la forme suivante:
munin.tetaneutral.net:0:tap3
trac.tetaneutral.net:0:tap5
munin.tetaneutral.net:1:tap5
Les rÃ¨gles ebtables sont Ã©crites par le script /etc/ganeti/spoofing/spoofing-protection avec les informations de ce fichier.
Les scripts de hook de ganeti (ie:/etc/ganeti/hook/) utilise ce script, pour lancer ou arreter le spoofing.

Debootstrap du nouvelle ubuntu >= oneiric:¶

cd /usr/share/debootstrap/scripts
ln -s gutsy oneiric
ln -s gutsy precise

ensuite la variante peux Ãªtre ajouter Ã ganeti-instace-debootstrap dans /etc/ganeti/instace-debootstrap/variants/...

Patch maison pour ganeti¶

Ajout de l'option -D Ã sfdisk au script /usr/share/ganeti/os/debootstrap/common.sh ligne 84 pour crÃ©er des partitions avec assez d'espace pour grub
Celui-ci est dÃ©crit dans l'installation d'une node aussi.

Voici quelques ressources:

http://docs.ganeti.org/ganeti/current/html/
http://docs.ganeti.org/ganeti/2.1/man/

Fichiers

Projet

Général

Profil

Wiki

Observateurs (2)