RAID rendszerek ellenőrzése és karbantartása: amit tudni érdemes

A legtöbb rendszergazda addig nem foglalkozik igazán a RAID-del, amíg először el nem kezd kattogni egy lemez, vagy a szerver hirtelen lassulni nem kezd. Pedig a tömb stabil működése nem szerencse kérdése, hanem fegyelmezett ellenőrzés és karbantartás eredménye. Ha a háttértár megbicsaklik, a rajta futó szolgáltatások is magukkal rántják a teljes rendszert, ezért érdemes tudatosan felépíteni a felügyeleti rutint.

Miért kulcskérdés a RAID rendszeres ellenőrzése?

A háttértár-problémák alattomosan jelentkeznek: először csak egy-egy lassabb fájlművelet, el-elmaradó backup, néha rövid ideig tartó fagyás. A gond, hogy ezeket a jeleket sokan a terhelésnek vagy a hálózatnak tulajdonítják, miközben a tömb már degradált állapotban küzd. Ha a hibát csak akkor vesszük észre, amikor már két diszk is megadja magát, gyakran már késő bármit is megmenteni. A megelőzés itt szó szerint órákat, napokat, sőt komplett munkanapokat spórolhat.

Tapasztalatból mondom: aki egyszer végigcsinált egy éles rendszeren történő, kapkodós adatmentést, utána teljesen más szemmel néz a háttértárra. Nálam is egy „csak még kibírja a hétvégét” típusú döntés vezetett ahhoz, hogy hétfő hajnalban adatmentő szoftverekkel zsonglőrködjek, miközben az ügyfél levelezése állt. A történet végül szerencsésen zárult, de azóta nem bízom a megérzésekben, csak a mért értékekben és a naplózott ellenőrzésekben.

A RAID állapotának nyomon követése egyfajta biztosítás: nemcsak az adatok védelméről szól, hanem az üzletmenet folytonosságáról is. Ha a monitoring jól be van állítva, a legtöbb gond még „gyermekbetegség” szinten elcsíphető. Ez azért kulcskérdés, mert egy diszkcsere, vagy időben észlelt szektorhiba töredékébe kerül annak, mint amikor teljes rendszerleállás miatt áll a termelés, a webshop vagy a belső vállalati rendszer.

A RAID állapotának gyors és pontos felmérése

Az első lépés mindig az, hogy tisztában legyünk azzal, pontosan min fut a rendszerünk:

RAID vezérlő típusa (hardveres, alaplapi, szoftveres)
operációs rendszer (Linux, Windows, BSD, stb.)
milyen eszközzel tudjuk lekérdezni az állapotot (mdadm, MegaCli, storcli, gyári management tool)

Ha ez megvan, a következőket érdemes rutinszerűen ellenőrizni:

tömb státusza (optimal, degraded, rebuilding, failed)
online lévő diszkek száma és állapota
hibás blokkok vagy újraallokált szektorok számának növekedése

Végül a naplózás adja a hosszú távú átláthatóságot:

rendszeres log mentés a RAID eszköz riportjaiból
központosított loggyűjtés (pl. syslog, SIEM rendszer)
változások dokumentálása: mikor lett diszk cserélve, vezérlő firmware frissítve, kábel cserélve

Mindennapi karbantartási rutin, ami tényleg működik

A napi (vagy minimum heti) ellenőrzés része legyen:

RAID státusz lekérdezése parancssorból vagy GUI-ból
ránézés a figyelmeztetésekre, sárga jelzésekre, nem csak a piros hibákra
rendelkezésre álló szabad hely ellenőrzése, különös tekintettel a log és temp partíciókra

Heti vagy havi szinten már érdemes mélyebbre ásni:

SMART értékek vizsgálata minden diszken (ECC error, pending sector, reallocated sector)
rövid és hosszú önellenőrzések ütemezése (smartctl, gyári diagnosztika)
vezérlő cache beállítások és BBU (akkumulátor) állapotának ellenőrzése

Negyedévente vagy félévente jó gyakorlat a „nagytakarítás”:

backup stratégia átnézése, próbavisszaállítás elvégzése tesztkörnyezetben
firmware és driver verziók felülvizsgálata, frissítési terv készítése
kábelek, backplane, hűtés és tápellátás fizikai ellenőrzése szerverteremben vagy rackszekrényben

Tipikus hibajelek, amelyekre azonnal reagálni kell

Az első, amit sosem szabad félvállról venni:

degradált állapot (degraded) megjelenése
bármilyen „predictive failure” vagy „prefail” jelzés egy diszken
szokatlanul hosszú bootidő, amikor a vezérlő sokáig „gondolkodik” a lemezeken

A teljesítménybeli jelek is fontosak, nem csak a nyers hibák:

hirtelen, tartós írási vagy olvasási lassulás az alkalmazásokban
backup idők megnyúlása, szokásostól eltérő lefutási idők
IO-wait értékek megugrása a szerveren, miközben a CPU látszólag unatkozik

Végül vannak a „kemény” figyelmeztető jelek:

kattogó, csipogó, ritmusosan ismétlődő hangok a szerverből
vezérlő által dobált „reset” vagy „link down/up” üzenetek ugyanazon a diszken vagy porton
többször ismétlődő hibás I/O kérések ugyanarra a logikai meghajtóra vagy LUN-ra

Haladó karbantartási fogások hosszú távra tervezőknek

Haladó szinten érdemes a diszkcserét is tudatosabban kezelni:

nem az első hibaüzenetnél, de még a teljes meghibásodás előtt időzített csere
azonos szériájú diszkeknél „szórt” csere, hogy ne egyszerre öregedjenek el
rebuild folyamat alatti terhelés csökkentése, hogy kisebb legyen a második hiba esélye

A monitoring rendszert is lehet profibbra húzni:

külön metrikák a RAID állapotára (OK/DEGRADED/REBUILDING) és a diszkhibákra
küszöbérték-alapú riasztások SMART adatokra és vezérlő logokra
hosszabb távú grafikonok készítése IO terhelésről, hőmérsékletről, rebuild idők alakulásáról

Biztonsági szempontból sem mindegy, hogyan bánunk a háttértárral:

rendszeres, automatizált teszt-visszaállítás külön környezetben
kritikus rendszereknél földrajzilag szeparált másodlagos példány vagy replikáció alkalmazása
dokumentált incidens-kezelési terv: ki mit csinál, ha egy tömb reggelre degradált állapotban indul

Gyakori kérdések RAID témában – 10 rövid válasz

Elég-e a RAID biztonsági mentés helyett?
Nem. A tömb javítja a rendelkezésre állást és a hibatűrést, de nem véd törlés, titkosító vírus, vagy emberi hiba ellen.
Milyen gyakran érdemes ellenőrizni az állapotot?
Minimum naponta ránézéssel, komolyabb környezetben pedig folyamatos monitoringgal és riasztással.
Leállíthatom-e a szervert diszkcsere előtt?
Ha hot-swap nincs támogatva vagy bizonytalan vagy, inkább tervezett leállás mellett cserélj, dokumentálva a lépéseket.
Árt-e a teljesítménynek a gyakori ellenőrzés?
Rövid állapotlekérdezés nem. Hosszú, intenzív tesztek (pl. full surface scan) menjenek alacsony terhelésű időszakban.
Mit tegyek, ha rebuild közben hibát látok?
Azonnal hagyd abba a kísérletezést, készíts teljes logmentést, és ha az adatok értékesek, konzultálj profi adatmentővel.
Keverhetek különböző gyártótól származó diszkeket?
Technikai értelemben többnyire igen, de célszerű hasonló paraméterű és megbízhatóságú modelleket használni.
Érdemes-e olcsó, „desktop” merevlemezt használni?
Kritikus rendszerekben nem. A szerverre szánt modellek más hibakezelést, vibrációtűrést és garanciát kínálnak.
Mit jelent, ha egy tömb „rebuild” állapotban van?
A vezérlő újraépíti az adatokat egy új vagy korábban hibás diszkre, ilyenkor fokozottan sérülékeny a rendszer.
Mikor frissítsem a RAID vezérlő firmware-t?
Tervezetten, backup után, és csak akkor, ha ismert hibát javít, vagy dokumentált előnyt hoz a saját környezetedben.
Lehet-e utólag RAID szintet váltani?
Sok vezérlő támogatja, de mindig legyen teljes backup, mert hiba esetén az egész tömb mehet a kukába.

A háttértár felügyelete unalmasnak tűnhet, amíg minden gond nélkül fut. A valóságban ez az a réteg, amin az egész infrastruktúra áll vagy bukik. Ha van egy következetes ellenőrzési és karbantartási rutinod, a legtöbb kellemetlen meglepetést még időben el tudod kerülni. Néhány perc odafigyelés naponta sok órányi vészhelyzeti tűzoltást válthat ki – és ez az az ár, amit érdemes megfizetni a nyugodt üzemeltetésért.