Ξαχνωντας για ποιο ειναι λειτουργικο/filesystem εχει την μεγαλυτερη προστασια/αξιοπιστια απο απωλεια δεδομενων αλλα και να μην "θυσιαζει" πολλους δισκους (TB) για parity μιας και μιλαμε για home use/multimedia, διαβασα τα παρακατω ενδιαφερον αρθρα. Συμφωνα με τα οποια σοφοτερη ειναι η επιλογη δισκων με URE rate of 10^15.
URE rate 10^15 εχουν μονο οι πανακριβοι enterprise και φυσικα ειναι ασυμφοροι και ακαταλληλοι για home use/multimedia πολλων TB.
Why RAID 5 stops working in 2009
Why RAID 6 stops working in 2019
Does RAID 6 stop working in 2019?
Με ολα τα παραπανω καταληγουμε οτι οποιο RAID (RAID5 ή RAID6) και να επιλεξουμε (το RAID10 δεν εχει καμια λογικη για home use) με 10 και 20 δισκους των 3-4TB (30-80TB) ακομα και σε raid6 ειναι σιγουρο οτι θα εχουμε ενα URE (το οποιο συμβαινει σε καθε 12TB read περιπου) χανωντας ετσι τα δεδομενα ΟΛΩΝ τον δισκων που ειναι στο pool.
Περισσοτερη λογικη εχει να επιλεξουμε ενα συστημα στο οποιο αν χτυπησουν παραπανω δισκοι απο αυτους που εχουμε για fault tollerance να μπορουμε να "διαβασουμε" και να εχουμε τα δεδομενα ανεπαφα στους υπολοιπους healthy δισκους. Οποτε τα ZFS, btrfs και storage spaces ειναι πληρως ακαταλληλα για storage server των 10-20+ δισκων των 3 και 4tb.. αν δε ακολουθησουμε και τον ατυπο κανονα οτι για 1tb σε ZFS θελουμε 1GB μνημης καταλαβαινουμε οτι να εχουμε 30-80GB μνημης ειναι τουλαχιστον ατυπο, ακομα και αν ισχυει 1ΤΒ για 500mb μνημης.
http://snapraid.sourceforge.net/compare.html
Απο το παραπανω λινκ (αν ειναι εγκυρο) σαν πιο σοφη επιλογη φαινεται να ειναι κατι σαν τα drive bender, unraid, snapraid, flexraid, disparity (ισως και το xpenology)..
απο τα οποια μπορουμε να εχουμε τα δεδομενα ανεπαφα απο τους υπολοιπους υγιης δισκους.
Εδω ομως τιθεται το ερωτημα αν θα διαβαζονται ως εχουν, (και δεν θα πρεπει να μεταφερουν σε αλλους δισκους), αν απλα τα βγαλουμε απο το pool;
γιατι αν πχ στο unraid, xpenology κτλ δεν αναγνωριζονται οι δισκοι πχ απο τα media player, και χρειαζομαστε αλλους τοσους δισκους οσους ειχαμε στο pool απλα για να τα μεταφερουμε, τοτε και αυτο το συστημα ειναι ακαταλληλο, λογο του οτι δεν μπορουμε να αγορασουμε πχ 20 δισκους για να κανουμε ενα απλο transfer, των 20 healthy δισκων που ειχαμε στο pool των 22 δισκων..
θα πρεπει να μπρουμε να τα βαλουμε παλι στον server μας, να κανουμε ενα νεο pool (χωρις να μας σβησει τα δεδομενα) και να συνεχισουμε με τους υπολοιπους 20 δισκους που εχουμε.
τι ειναι προτιμοτερο..
- δυο pool array με 7 δισκους των 4TB και RAID5
- ενα pool array με 14 δισκους των 4TB και RAID6
και στις δυο περιπτωσεις θα "χασουμε" 8TB για parity..
- ή απλα JBOD και αν χτυπησει καποιος δισκος να χασουμε ΜΟΝΟ εκεινο τον δισκο, κερδιζοντας και τα 8TB (parity) που χαναμε απο τα παραπανω παραδειγματα..οπου εχουμε και πολυ λιγες πιθανοτητες success rebuilt του raid..
και καποια αλλα λινκ
How long do disk drives last?
Why aren’t disk reads more reliable?
MTBF vs URE
Western Digital Red NAS Hard Drive Review Discussion
Triple-Parity RAID and Beyond
URE rate 10^15 εχουν μονο οι πανακριβοι enterprise και φυσικα ειναι ασυμφοροι και ακαταλληλοι για home use/multimedia πολλων TB.
Why RAID 5 stops working in 2009
Reads fail SATA drives are commonly specified with an unrecoverable read error rate (URE) of 10^14. Which means that once every 100,000,000,000,000 bits, the disk will very politely tell you that, so sorry, but I really, truly can't read that sector back to you.
One hundred trillion bits is about 12 terabytes.
The Storage Bits take Users of enterprise storage arrays have less to worry about: your tiny costly disks have less capacity and thus a smaller chance of encountering an URE. And your spec'd URE rate of 10^15 also helps.
There are some other fixes out there as well, some fairly obvious and some, I'm certain, waiting for someone much brighter than me to invent. But even today a 7 drive RAID 5 with 1 TB disks has a 50% chance of a rebuild failure. RAID 5 is reaching the end of its useful life.
Update: I've clearly tapped into a rich vein of RAID folklore. Just to be clear I'm talking about a failed drive (i.e. all sectors are gone) plus an URE on another sector during a rebuild. With 12 TB of capacity in the remaining RAID 5 stripe and an URE rate of 10^14, you are highly likely to encounter a URE. Almost certain, if the drive vendors are right.
RAID 6 will protect you against this quite nicely, just as RAID 5 protects against a single disk failure today. In the future, though, you will require RAID 6 to protect against single disk failures + the inevitable URE and so, effectively, RAID 6 in a few years will give you no more protection than RAID 5 does today. This isn't RAID 6's fault. Instead it is due to the increasing capacity of disks and their steady URE rate. RAID 5 won't work at all, and, instead, RAID 6 will replace RAID 5.
Finally, I recalculated the AFR for 7 drives using the 3.1% AFR from the CMU paper, using the formula suggested by a couple of readers - 1-96.9 ^# of disks - and got 19.8%. So I changed the ~23% number to ~20%.
One hundred trillion bits is about 12 terabytes.
The Storage Bits take Users of enterprise storage arrays have less to worry about: your tiny costly disks have less capacity and thus a smaller chance of encountering an URE. And your spec'd URE rate of 10^15 also helps.
There are some other fixes out there as well, some fairly obvious and some, I'm certain, waiting for someone much brighter than me to invent. But even today a 7 drive RAID 5 with 1 TB disks has a 50% chance of a rebuild failure. RAID 5 is reaching the end of its useful life.
Update: I've clearly tapped into a rich vein of RAID folklore. Just to be clear I'm talking about a failed drive (i.e. all sectors are gone) plus an URE on another sector during a rebuild. With 12 TB of capacity in the remaining RAID 5 stripe and an URE rate of 10^14, you are highly likely to encounter a URE. Almost certain, if the drive vendors are right.
RAID 6 will protect you against this quite nicely, just as RAID 5 protects against a single disk failure today. In the future, though, you will require RAID 6 to protect against single disk failures + the inevitable URE and so, effectively, RAID 6 in a few years will give you no more protection than RAID 5 does today. This isn't RAID 6's fault. Instead it is due to the increasing capacity of disks and their steady URE rate. RAID 5 won't work at all, and, instead, RAID 6 will replace RAID 5.
Finally, I recalculated the AFR for 7 drives using the 3.1% AFR from the CMU paper, using the formula suggested by a couple of readers - 1-96.9 ^# of disks - and got 19.8%. So I changed the ~23% number to ~20%.
Why RAID 6 stops working in 2019
The crux of the problem RAID arrays are groups of disks with special logic in the controller that stores the data with extra bits so the loss of 1 or 2 disks won't destroy the information (I'm speaking of RAID levels 5 and 6, not 0, 1 or 10). The extra bits - parity - enable the lost data to be reconstructed by reading all the data off the remaining disks and writing to a replacement disk.
The problem with RAID 5 is that disk drives have read errors. SATA drives are commonly specified with an unrecoverable read error rate (URE) of 10^14. Which means that once every 200,000,000 sectors, the disk will not be able to read a sector.
2 hundred million sectors is about 12 terabytes. When a drive fails in a 7 drive, 2 TB SATA disk RAID 5, you’ll have 6 remaining 2 TB drives. As the RAID controller is reconstructing the data it is very likely it will see an URE. At that point the RAID reconstruction stops.
Here's the math: (1 - 1 /(2.4 x 10^10)) ^ (2.3 x 10^10) = 0.3835
You have a 62% chance of data loss due to an uncorrectable read error on a 7 drive RAID with one failed disk, assuming a 10^14 read error rate and ~23 billion sectors in 12 TB. Feeling lucky?
RAID 6 RAID 6 tackles this problem by creating enough parity data to handle 2 failures. You can lose a disk and have a URE and still reconstruct your data.
Some complain about the increased overhead of 2 parity disks. But doubling the size of RAID 5 stripe gives you dual disk protection with the same capacity. Instead of a 7 drive RAID 5 stripe with 1 parity disk, build a 14 drive stripe with 2 parity disks: no more capacity for parity and protection against 2 failures.
Digital nirvana, eh? Not so fast, my friend.
Grit in the gears Mr. Leventhal points out is that a confluence of factors are leading to a time when even dual parity will not suffice to protect enterprise data.
Consider:
The problem with RAID 5 is that disk drives have read errors. SATA drives are commonly specified with an unrecoverable read error rate (URE) of 10^14. Which means that once every 200,000,000 sectors, the disk will not be able to read a sector.
2 hundred million sectors is about 12 terabytes. When a drive fails in a 7 drive, 2 TB SATA disk RAID 5, you’ll have 6 remaining 2 TB drives. As the RAID controller is reconstructing the data it is very likely it will see an URE. At that point the RAID reconstruction stops.
Here's the math: (1 - 1 /(2.4 x 10^10)) ^ (2.3 x 10^10) = 0.3835
You have a 62% chance of data loss due to an uncorrectable read error on a 7 drive RAID with one failed disk, assuming a 10^14 read error rate and ~23 billion sectors in 12 TB. Feeling lucky?
RAID 6 RAID 6 tackles this problem by creating enough parity data to handle 2 failures. You can lose a disk and have a URE and still reconstruct your data.
Some complain about the increased overhead of 2 parity disks. But doubling the size of RAID 5 stripe gives you dual disk protection with the same capacity. Instead of a 7 drive RAID 5 stripe with 1 parity disk, build a 14 drive stripe with 2 parity disks: no more capacity for parity and protection against 2 failures.
Digital nirvana, eh? Not so fast, my friend.
Grit in the gears Mr. Leventhal points out is that a confluence of factors are leading to a time when even dual parity will not suffice to protect enterprise data.
Consider:
- Long rebuild times. As disk capacity grows, so do rebuild times. 7200 RPM full drive writes average about 115 MB/sec - they slow down as they fill up - which means about 5 hours minimum to rebuild a failed drive. But most arrays can't afford the overhead of a top speed rebuild, so rebuild times are usually 2-5x that.
- More latent errors. Enterprise arrays employ background disk-scrubbing to find and correct disk errors before they bite. But as disk capapcities increase scrubbing takes longer. In a large array a disk might go for months between scrubs, meaning more errors on rebuild.
- Disk failure correlation. RAID proponents assumed that disk failures are independent events, but long experience has shown this is not the case: 1 drive failure means another is much more likely.
Does RAID 6 stop working in 2019?
Με ολα τα παραπανω καταληγουμε οτι οποιο RAID (RAID5 ή RAID6) και να επιλεξουμε (το RAID10 δεν εχει καμια λογικη για home use) με 10 και 20 δισκους των 3-4TB (30-80TB) ακομα και σε raid6 ειναι σιγουρο οτι θα εχουμε ενα URE (το οποιο συμβαινει σε καθε 12TB read περιπου) χανωντας ετσι τα δεδομενα ΟΛΩΝ τον δισκων που ειναι στο pool.
Περισσοτερη λογικη εχει να επιλεξουμε ενα συστημα στο οποιο αν χτυπησουν παραπανω δισκοι απο αυτους που εχουμε για fault tollerance να μπορουμε να "διαβασουμε" και να εχουμε τα δεδομενα ανεπαφα στους υπολοιπους healthy δισκους. Οποτε τα ZFS, btrfs και storage spaces ειναι πληρως ακαταλληλα για storage server των 10-20+ δισκων των 3 και 4tb.. αν δε ακολουθησουμε και τον ατυπο κανονα οτι για 1tb σε ZFS θελουμε 1GB μνημης καταλαβαινουμε οτι να εχουμε 30-80GB μνημης ειναι τουλαχιστον ατυπο, ακομα και αν ισχυει 1ΤΒ για 500mb μνημης.
http://snapraid.sourceforge.net/compare.html
Απο το παραπανω λινκ (αν ειναι εγκυρο) σαν πιο σοφη επιλογη φαινεται να ειναι κατι σαν τα drive bender, unraid, snapraid, flexraid, disparity (ισως και το xpenology)..
απο τα οποια μπορουμε να εχουμε τα δεδομενα ανεπαφα απο τους υπολοιπους υγιης δισκους.
Εδω ομως τιθεται το ερωτημα αν θα διαβαζονται ως εχουν, (και δεν θα πρεπει να μεταφερουν σε αλλους δισκους), αν απλα τα βγαλουμε απο το pool;
γιατι αν πχ στο unraid, xpenology κτλ δεν αναγνωριζονται οι δισκοι πχ απο τα media player, και χρειαζομαστε αλλους τοσους δισκους οσους ειχαμε στο pool απλα για να τα μεταφερουμε, τοτε και αυτο το συστημα ειναι ακαταλληλο, λογο του οτι δεν μπορουμε να αγορασουμε πχ 20 δισκους για να κανουμε ενα απλο transfer, των 20 healthy δισκων που ειχαμε στο pool των 22 δισκων..
θα πρεπει να μπρουμε να τα βαλουμε παλι στον server μας, να κανουμε ενα νεο pool (χωρις να μας σβησει τα δεδομενα) και να συνεχισουμε με τους υπολοιπους 20 δισκους που εχουμε.
τι ειναι προτιμοτερο..
- δυο pool array με 7 δισκους των 4TB και RAID5
- ενα pool array με 14 δισκους των 4TB και RAID6
και στις δυο περιπτωσεις θα "χασουμε" 8TB για parity..
- ή απλα JBOD και αν χτυπησει καποιος δισκος να χασουμε ΜΟΝΟ εκεινο τον δισκο, κερδιζοντας και τα 8TB (parity) που χαναμε απο τα παραπανω παραδειγματα..οπου εχουμε και πολυ λιγες πιθανοτητες success rebuilt του raid..
και καποια αλλα λινκ
How long do disk drives last?
Why aren’t disk reads more reliable?
MTBF vs URE
Western Digital Red NAS Hard Drive Review Discussion
Triple-Parity RAID and Beyond
Last edited: