Skip to main content

Re: Bug 15809921 on a pool *without* l2arc?

  • From: Victor Latushkin < >
  • To:
  • Subject: Re: Bug 15809921 on a pool *without* l2arc?
  • Date: Wed, 24 Jul 2013 14:50:32 -0600

On 7/24/13 2:43 PM, Robin P. Blanchard wrote:

On Jul 24, 2013, at 16:32 PM, Robin P. Blanchard wrote:


On Jul 24, 2013, at 15:50 PM, Victor Latushkin wrote:

On 7/24/13 1:41 PM, Robin P. Blanchard wrote:
We have just discovered (on 11.0 SRU 13.4 + idr357) that we have seemingly 
tripped 15809921 / SUNBT7191375 on a pool that did *not* have l2arc devices. 
The pool, as indicated below in its trimmed zpool history, did at one time 
have a cache device enabled.

Being unable to schedule a complete maintenance window back in March (when we 
first tripped this same bug on a different system, *with* l2arc), the 
customer elected to remove the l2arc device to mitigate the risk. It would 
seem, however, that said bug can be tripped *without* l2arc present. Or is it 
possible that the metadata became corrupted while there was l2arc present and 
-- despite the device's removal -- only now was the bug triggered? The latter 
scenario is quite troubling....

Thoughts?

Since L2ARC device was present in the config at one time in the past, it 
could damage this pool. It is only detected when corresponding space map is 
loaded.

Victor


Thanks for the quick reply, Victor.

I'm trying to get the full implications of your answer. Does this mean that any pool 
that had had l2arc at any point prior to 11.1 SRU 3.4 could have this sleeping bug? We 
were under the impression that the removal of cache devices would mitigate this bug (as 
stated back on 19 December 2012 to this list " Solaris 11 System Reboots 
Continuously Because of a ZFS-Related Panic (7191375)"). Any help/suggestions you 
can provide would be most appreciated.

Does this also imply that the damage could be done, the cache removed, the 
system patched to post 11.1 SRU 3.4 and the bug still strike?

Damage can strike, not the bug.


Thanks again,
Robin



Robin



::stackregs
ffffff0174324480 vpanic()
ffffff01743244b0 vcmn_err+0x2e(3, fffffffff7a9f3e8, ffffff0174324570)
ffffff01743245a0 zfs_panic_recover+0xae()
ffffff0174324650 space_map_remove+0x194(ffffff33186a8988, f000000000, 200)
ffffff0174324700 space_map_load+0x23c(ffffff33186a8988, fffffffffbd35a98, 1, 
ffffff33186a8548, ffffff32ce1d2cc0)
ffffff0174324780 metaslab_activate+0x9c(ffffff33186a8540, 8000000000000000, 
1200, 124dc0)
ffffff0174324840 metaslab_group_alloc+0x22f(ffffff32be756a80, 1200, 124dc0, 
45dcbf0000, ffffff32dd9b6500, 1)
ffffff0174324910 metaslab_alloc_dva+0x2a5(ffffff3286fa7000, ffffff32de3ac2d8, 
a00, ffffff32dd9b6500, 1, 3, 0, 124dc0, 0)
ffffff01743249e0 metaslab_alloc+0xd6(ffffff3286fa7000, ffffff32de3ac2d8, a00, 
ffffff32dd9b6500, 3, 124dc0, 0, 0)
ffffff0174324a40 zio_dva_allocate+0xd8(ffffff32e1e25180)
ffffff0174324a70 zio_execute+0x8d(ffffff32e1e25180)
ffffff0174324b10 taskq_thread+0x22e(ffffff32d47e3000)
ffffff0174324b20 thread_start+8()
0xffffff3286fa7000::print spa_t spa_name
spa_name = [ "R1HP3" ]
$Q

**prior to the panic, crash, and subsequent reboot loop**

# zpool status -Dv R1HP3
pool: R1HP3
state: ONLINE
scan: resilvered 11.0M in 0h0m with 0 errors on Wed Jul 17 16:45:21 2013
config:

        NAME          STATE     READ WRITE CKSUM
        R1HP3         ONLINE       0     0     0
         raidz2-0    ONLINE       0     0     0
           c7t40d12  ONLINE       0     0     0
           c7t41d12  ONLINE       0     0     0
           c7t42d12  ONLINE       0     0     0
           c7t43d12  ONLINE       0     0     0
           c7t44d12  ONLINE       0     0     0
           c7t45d12  ONLINE       0     0     0
         raidz2-1    ONLINE       0     0     0
           c7t40d13  ONLINE       0     0     0
           c7t41d13  ONLINE       0     0     0
           c7t42d13  ONLINE       0     0     0
           c7t43d13  ONLINE       0     0     0
           c7t44d13  ONLINE       0     0     0
           c7t45d13  ONLINE       0     0     0
         raidz2-2    ONLINE       0     0     0
           c7t40d14  ONLINE       0     0     0
           c7t41d14  ONLINE       0     0     0
           c7t42d14  ONLINE       0     0     0
           c7t43d14  ONLINE       0     0     0
           c7t44d14  ONLINE       0     0     0
           c7t45d14  ONLINE       0     0     0
         raidz2-3    ONLINE       0     0     0
           c7t40d15  ONLINE       0     0     0
           c7t41d15  ONLINE       0     0     0
           c7t42d15  ONLINE       0     0     0
           c7t43d15  ONLINE       0     0     0
           c7t44d15  ONLINE       0     0     0
           c7t45d15  ONLINE       0     0     0

errors: No known data errors

2012-11-21.19:17:38 zpool add R1HP3 cache c0t5E83A9701000F85Ed0 [user root on 
gk2-snas-02:global]
2013-03-14.18:10:03 zpool remove R1HP3 c0t5E83A9701000F85Ed0 [user root on 
gk2-snas-02:global]

Thanks very much in advance,
Robin



--
Robin P. Blanchard
Coraid CTAC
support.coraid.com
+1 650.730.5140







--
Robin P. Blanchard
Coraid CTAC
support.coraid.com
+1 650.730.5140






--
Robin P. Blanchard
Coraid CTAC
support.coraid.com
+1 650.730.5140








Bug 15809921 on a pool *without* l2arc?

Robin P. Blanchard 07/24/2013

Re: Bug 15809921 on a pool *without* l2arc?

Victor Latushkin 07/24/2013

Re: Bug 15809921 on a pool *without* l2arc?

Robin P. Blanchard 07/24/2013

Re: Bug 15809921 on a pool *without* l2arc?

Victor Latushkin 07/24/2013

Re: Bug 15809921 on a pool *without* l2arc?

Robin P. Blanchard 07/24/2013

Re: Bug 15809921 on a pool *without* l2arc?

Victor Latushkin 07/24/2013

Re: Bug 15809921 on a pool *without* l2arc?

Robin P. Blanchard 07/26/2013

Re: Bug 15809921 on a pool *without* l2arc?

Victor Latushkin 07/26/2013

Re: Bug 15809921 on a pool *without* l2arc?

Robin P. Blanchard 07/26/2013
 
 
Close
loading
Please Confirm
Close