  Cindy Swearingen
  • To:
  Subject: pool maintenance and monitoring
  Date: Tue, 30 Apr 2013 17:01:53 -0600

Dear ZFS Friends,

I work in the external ZFS communities and this seems like a good time
to remind everyone that monitoring your system and pool resources is
very important role in the continuing health of your data.

I see very large RAIDZ1 or RAIDZ pools (50TB, 40+ devices plus 1
spare) or non-redundant pools that are difficult to recover from if
the hardware fails or some other bad thing happens.

Keep in mind the following:

1. RAIDZ pools have different failure modes:

A. A RAIDZ1 pool can withstand the failure of 1 device per VDEV
B. A RAIDZ2 pool can withstand the failure of 2 devices per VDEV
C. A RAIDZ3 pool can withstand the failure of 3 devices per VDEV

2 If a device fails or has a connection problem in a non-redundant
pool and data is corrupted, then the pool will most likely need to
be restored from backup.

4. Always have good, recent backups.

If your intended pool is so large that you can't back it up on a
regular basis, then don't build it.

5. You should be monitoring your pools and underlying hardware
on a regular basis, like weekly. Non-redundant pools should be
monitored more often.

See this section of the ZFS Admin Guide for more information
about maintenance and monitoring practices:

*Silly me: biweekly means 2 times per month. What I meant was
semiweekly, 2 times per week. I'll fix this.

