faretesto > linux.debian.user.italian

Bertorello, Marco (17.07.2019, 14:20)
Buongiorno,

chiedo un consiglio circa un setup che voglio fare.

Ho 3 host, pressochè identici, con:
- sda - SSD da 60 GB
- sdb - HDD da 3 TB
- sdc - HDD da 3 TB

vorrei gestirli così:

- sda 20 GB per il sistema operativo (proxmox ve 6, basato su debian
10), i restanti 40 GB come cache LVM per
- sdb+sdc = 6 TB LVM

Vorrei che i 3 host replicassero il volume da 6 TB e lo condividessero,
in modo che se un disco di un nodo muore, quel nodo possa comunque
accedere al filesystem attraverso gli altri nodi.

Fin'ora mi sono trovato abbastanza bene con GlusterFS, ma ha dei
problemi con lxc (che uso tantissimo) e non mi permette di fare il
backup in modalità snapshot.

Vorrei capire se esistono alternative. Proxmox da per supportato lo
snapshot per:

- ZFS (local)
- CephFS
- LVM-Thin
- Ceph/RBD
- ZFS over iSCSI

Ho provato a guardare Ceph (che è supportato ed integrato), ma non mi
pare permetta di fare qualcosa di simile alla mia cache per LVM (che
vorrei mantenere).

Forse anche ZFS può fare qualcosa di simile, ma vorrei evitare di
"sprecare" RAM.

Consigli? idee? ben vengano anche soluzioni "ibride"

Molte grazie in anticipo!

Saluti,
Marco Gaiarin (19.07.2019, 00:20)
Mandi! Bertorello, Marco
In chel di` si favelave...

> Consigli? idee? ben vengano anche soluzioni "ibride"


Hai a mio avviso due soluzioni pienamente integrate in PVE.

1) ZFS: ovvero crei un ZFS raid-1 e metti la cache sul disco ssd, poi attivi
tra i nodi la 'replica':


il vantaggio di questa soluzione è la semplicità, lo svantaggio è che il
failover è manuale, almeno in PVE 5.

2) ceph: puoi creare dei dischi 'ceph' (OSD) mettendo la cache sul disco
ssd. Anche con il 5, puoi farlo direttamente da interfaccia di PVE.

qui hai un pelo di complessità da gestire (la rete come sta? ;-), ma hai
pieno failover e volendo HA.

Entrambi gli storage sono 'featureful': snapshot, ...
Marco Bertorello (19.07.2019, 11:00)
Il 18/07/2019 23:43, Marco Gaiarin ha scritto:
> Mandi! Bertorello, Marco
> In chel di` si favelave...
> Hai a mio avviso due soluzioni pienamente integrate in PVE.
> 1) ZFS: ovvero crei un ZFS raid-1 e metti la cache sul disco ssd, poi attivi
> tra i nodi la 'replica':
>
> il vantaggio di questa soluzione è la semplicità, lo svantaggio èche il
> failover è manuale, almeno in PVE 5.


potrebbe essere una soluzione... il failover manuale potrebbe essere più
che sufficiente.

Ma perchè Raid 1? i due dischi da 3 TB mi servono in Raid0 (per
questioni di spazio e performance, la ridondanza la faccio con gli altri
host).

Nel caso è qualcosa che posso fare dalla gui di PVE o "a mano"?

> 2) ceph: puoi creare dei dischi 'ceph' (OSD) mettendo la cache sul disco
> ssd. Anche con il 5, puoi farlo direttamente da interfaccia di PVE.


Ah! non ho trovato molto a riguardo... evidentemente ho sbagliato
termini di ricerca, mi puoi puntare verso qualche doc?

> qui hai un pelo di complessità da gestire (la rete come sta? ;-), ma hai
> pieno failover e volendo HA.


Giusto, non l'ho detto nella mia mail.

Per la rete, tutti e tre gli host hanno 3 NIC 1000, di cui 2 in bond
dedicate allo storage (già è così attualmente per GlusterFS)

> Entrambi gli storage sono 'featureful': snapshot, ...


the dream! :)

Grazie mille
Marco Gaiarin (21.07.2019, 16:50)
Mandi! Marco Bertorello
In chel di` si favelave...

> Ma perchè Raid 1?


Perchè ho letto male il tuo messaggio iniziale, scusa.
Ma va da se che come si fa per zraid1, lo fai anche per zraid0 o come
caspita si chiama in ZFS... ;-)

> Nel caso è qualcosa che posso fare dalla gui di PVE o "a mano"?


Allora, almeno fino alla 5 in fase di installazione puoi installare il
sistema in ZFS, ma credo che la cosa più gista nel tuo caso sia quella di
installare, e in un secondo momento creare i volumi ZFS con i due dischi
rotativi, e poi far vedere il nuovo pool a PVE.

L'ho fatto in una sola occasione, ma ha funzionato senza problemi.

>> 2) ceph: puoi creare dei dischi 'ceph' (OSD) mettendo la cache sul disco
>> ssd. Anche con il 5, puoi farlo direttamente da interfaccia di PVE.

> Ah! non ho trovato molto a riguardo... evidentemente ho sbagliato
> termini di ricerca, mi puoi puntare verso qualche doc?


....la documentazione ufficiale Ceph di PVE... in teoria:



+ Nei dischi SSD, lasci delle partizioni (GPT, non DOS!) libere;
+ i dischi rotativi devono essere ''puliti''; nel dubbio, dd if=/dev/zero
of=/dev/sdx e lascia correre qualche manciata di secondi.

fatto questo, e installato ceph in proxmox, dovresti poter configurare gli
OSD, ''vedendo'' sia i dischi che le partizioni di cache.

Se non vedi le partizioni di journal/WAL, vai di 'ceph-volume' a manella.

> Per la rete, tutti e tre gli host hanno 3 NIC 1000, di cui 2 in bond
> dedicate allo storage (già è così attualmente per GlusterFS)


Ok. Considera che è è possibie in questo caso la configurazione
'switchless' (colleghi i server tra loro) ma che è melgio mettere tutto in
uno stesso bridge:

Bertorello, Marco (22.07.2019, 09:50)
Il 21/07/2019 16:12, Marco Gaiarin ha scritto:
> Mandi! Marco Bertorello
> In chel di` si favelave...
>> Ma perchè Raid 1?

> Perchè ho letto male il tuo messaggio iniziale, scusa.
> Ma va da se che come si fa per zraid1, lo fai anche per zraid0 o come
> caspita si chiama in ZFS... ;-)


Ah Ok! Temevo qualche oscura configurazione ZFS :)

> Allora, almeno fino alla 5 in fase di installazione puoi installare il
> sistema in ZFS, ma credo che la cosa più gista nel tuo caso sia quella di
> installare, e in un secondo momento creare i volumi ZFS con i due dischi
> rotativi, e poi far vedere il nuovo pool a PVE.
> L'ho fatto in una sola occasione, ma ha funzionato senza problemi.
> ...la documentazione ufficiale Ceph di PVE... in teoria:
>


Ad essere sincero, avevo guardato quella documentazione, ma non avevo
visto parlare di cache, pensavo non si potesse fare!
Cercando meglio, ho visto
che si
può fare, ma se non ho capito male, dovrei fare un pool a parte ed usare
quello come cache per il pool principale, è corretto?

> + Nei dischi SSD, lasci delle partizioni (GPT, non DOS!) libere;


Ma posso creare un OSD su una partizione? non vanno creati su dischi interi?

> + i dischi rotativi devono essere ''puliti''; nel dubbio, dd if=/dev/zero
> of=/dev/sdx e lascia correre qualche manciata di secondi.
> fatto questo, e installato ceph in proxmox, dovresti poter configurare gli
> OSD, ''vedendo'' sia i dischi che le partizioni di cache.
> Se non vedi le partizioni di journal/WAL, vai di 'ceph-volume' a manella.

Ehm... temo di non essere ferrato sull'argomento. Le partizioni di
journal/WAL sarebbero quelle da usare come cache?

Comunque grazie!

farò qualche prova con entrambe le soluzioni in ambiente virtuale prima
di lavorare sulle macchine fisiche

ciao,
Bertorello, Marco (22.07.2019, 14:00)
Il 22/07/2019 09:49, Bertorello, Marco ha scritto:
> farò qualche prova con entrambe le soluzioni in ambiente virtuale prima
> di lavorare sulle macchine fisiche


Ok, qualche prova veloce fatta... Ceph direi che per il momento lo metto
da parte... un po' troppo poco chiaro per i miei gusti.

Mentre la soluzione con ZFS è ottima per il mio caso!
Mi sorgono solo alcuni dubbi:

avendo un cluster a 3 nodi, su ogni nodo devo configurare una doppia
replica (verso gli altri due nodi)?

è consigliabile attivare le feature di compressione e deduplica sullo
storage ZFS per questo uso?

Grazie ancora Marco, mi hai fatto uscire da un tunnel :)
Marco Gaiarin (22.07.2019, 23:20)
Mandi! Bertorello, Marco
In chel di` si favelave...

> che si
> può fare, ma se non ho capito male, dovrei fare un pool a parte ed usare
> quello come cache per il pool principale, è corretto?


IO sono fermo a 'filestore', dove ci sono gli OSD e il journal; di bluestore
so ancora poco...
Marco Gaiarin (22.07.2019, 23:20)
Mandi! Bertorello, Marco
In chel di` si favelave...

> avendo un cluster a 3 nodi, su ogni nodo devo configurare una doppia
> replica (verso gli altri due nodi)?
> è consigliabile attivare le feature di compressione e deduplica sullo
> storage ZFS per questo uso?


....anche qui, non so risponderti...
Discussioni simili