Skip to main content

Re: Bug 15809921 on a pool *without* l2arc?

  • From: "Robin P. Blanchard" < >
  • To: "< >" < >
  • Subject: Re: Bug 15809921 on a pool *without* l2arc?
  • Date: Wed, 24 Jul 2013 20:43:52 +0000
  • Accept-language: en-US


On Jul 24, 2013, at 16:32 PM, Robin P. Blanchard wrote:

> 
> On Jul 24, 2013, at 15:50 PM, Victor Latushkin wrote:
> 
>> On 7/24/13 1:41 PM, Robin P. Blanchard wrote:
>>> We have just discovered (on 11.0 SRU 13.4 + idr357) that we have 
>>> seemingly tripped 15809921 / SUNBT7191375 on a pool that did *not* have 
>>> l2arc devices. The pool, as indicated below in its trimmed zpool history, 
>>> did at one time have a cache device enabled.
>>> 
>>> Being unable to schedule a complete maintenance window back in March 
>>> (when we first tripped this same bug on a different system, *with* 
>>> l2arc), the customer elected to remove the l2arc device to mitigate the 
>>> risk. It would seem, however, that said bug can be tripped *without* 
>>> l2arc present. Or is it possible that the metadata became corrupted while 
>>> there was l2arc present and -- despite the device's removal -- only now 
>>> was the bug triggered? The latter scenario is quite troubling....
>>> 
>>> Thoughts?
>
>> Since L2ARC device was present in the config at one time in the past, it 
>> could damage this pool. It is only detected when corresponding space map 
>> is loaded.
>
>> Victor
> 
> 
> Thanks for the quick reply, Victor.
> 
> I'm trying to get the full implications of your answer. Does this mean that 
> any pool that had had l2arc at any point prior to 11.1 SRU 3.4 could have 
> this sleeping bug? We were under the impression that the removal of cache 
> devices would mitigate this bug (as stated back on 19 December 2012 to this 
> list " Solaris 11 System Reboots Continuously Because of a ZFS-Related 
> Panic (7191375)"). Any help/suggestions you can provide would be most 
> appreciated. 

Does this also imply that the damage could be done, the cache removed, the 
system patched to post 11.1 SRU 3.4 and the bug still strike?

Thanks again,
Robin



> Robin 
> 
> 
> 
>>>> ::stackregs
>>> ffffff0174324480 vpanic()
>>> ffffff01743244b0 vcmn_err+0x2e(3, fffffffff7a9f3e8, ffffff0174324570)
>>> ffffff01743245a0 zfs_panic_recover+0xae()
>>> ffffff0174324650 space_map_remove+0x194(ffffff33186a8988, f000000000, 200)
>>> ffffff0174324700 space_map_load+0x23c(ffffff33186a8988, fffffffffbd35a98, 
>>> 1, ffffff33186a8548, ffffff32ce1d2cc0)
>>> ffffff0174324780 metaslab_activate+0x9c(ffffff33186a8540, 
>>> 8000000000000000, 1200, 124dc0)
>>> ffffff0174324840 metaslab_group_alloc+0x22f(ffffff32be756a80, 1200, 
>>> 124dc0, 45dcbf0000, ffffff32dd9b6500, 1)
>>> ffffff0174324910 metaslab_alloc_dva+0x2a5(ffffff3286fa7000, 
>>> ffffff32de3ac2d8, a00, ffffff32dd9b6500, 1, 3, 0, 124dc0, 0)
>>> ffffff01743249e0 metaslab_alloc+0xd6(ffffff3286fa7000, ffffff32de3ac2d8, 
>>> a00, ffffff32dd9b6500, 3, 124dc0, 0, 0)
>>> ffffff0174324a40 zio_dva_allocate+0xd8(ffffff32e1e25180)
>>> ffffff0174324a70 zio_execute+0x8d(ffffff32e1e25180)
>>> ffffff0174324b10 taskq_thread+0x22e(ffffff32d47e3000)
>>> ffffff0174324b20 thread_start+8()
>>>> 0xffffff3286fa7000::print spa_t spa_name
>>> spa_name = [ "R1HP3" ]
>>>> $Q
>>> 
>>> **prior to the panic, crash, and subsequent reboot loop**
>>> 
>>> # zpool status -Dv R1HP3
>>> pool: R1HP3
>>> state: ONLINE
>>> scan: resilvered 11.0M in 0h0m with 0 errors on Wed Jul 17 16:45:21 2013
>>> config:
>>> 
>>>        NAME          STATE     READ WRITE CKSUM
>>>        R1HP3         ONLINE       0     0     0
>>>         raidz2-0    ONLINE       0     0     0
>>>           c7t40d12  ONLINE       0     0     0
>>>           c7t41d12  ONLINE       0     0     0
>>>           c7t42d12  ONLINE       0     0     0
>>>           c7t43d12  ONLINE       0     0     0
>>>           c7t44d12  ONLINE       0     0     0
>>>           c7t45d12  ONLINE       0     0     0
>>>         raidz2-1    ONLINE       0     0     0
>>>           c7t40d13  ONLINE       0     0     0
>>>           c7t41d13  ONLINE       0     0     0
>>>           c7t42d13  ONLINE       0     0     0
>>>           c7t43d13  ONLINE       0     0     0
>>>           c7t44d13  ONLINE       0     0     0
>>>           c7t45d13  ONLINE       0     0     0
>>>         raidz2-2    ONLINE       0     0     0
>>>           c7t40d14  ONLINE       0     0     0
>>>           c7t41d14  ONLINE       0     0     0
>>>           c7t42d14  ONLINE       0     0     0
>>>           c7t43d14  ONLINE       0     0     0
>>>           c7t44d14  ONLINE       0     0     0
>>>           c7t45d14  ONLINE       0     0     0
>>>         raidz2-3    ONLINE       0     0     0
>>>           c7t40d15  ONLINE       0     0     0
>>>           c7t41d15  ONLINE       0     0     0
>>>           c7t42d15  ONLINE       0     0     0
>>>           c7t43d15  ONLINE       0     0     0
>>>           c7t44d15  ONLINE       0     0     0
>>>           c7t45d15  ONLINE       0     0     0
>>> 
>>> errors: No known data errors
>>> 
>>> 2012-11-21.19:17:38 zpool add R1HP3 cache c0t5E83A9701000F85Ed0 [user 
>>> root on gk2-snas-02:global]
>>> 2013-03-14.18:10:03 zpool remove R1HP3 c0t5E83A9701000F85Ed0 [user root 
>>> on gk2-snas-02:global]
>>> 
>>> Thanks very much in advance,
>>> Robin
>>> 
>>> 
>>> 
>>> --
>>> Robin P. Blanchard
>>> Coraid CTAC
>>> support.coraid.com
>>> +1 650.730.5140
>>> 
>>> 
>>> 
>>> 
>>> 
>
> 
> --
> Robin P. Blanchard
> Coraid CTAC
> support.coraid.com
> +1 650.730.5140
> 
> 
> 
> 
> 

--
Robin P. Blanchard
Coraid CTAC
support.coraid.com
+1 650.730.5140







Bug 15809921 on a pool *without* l2arc?

Robin P. Blanchard 07/24/2013

Re: Bug 15809921 on a pool *without* l2arc?

Victor Latushkin 07/24/2013

Re: Bug 15809921 on a pool *without* l2arc?

Robin P. Blanchard 07/24/2013

Re: Bug 15809921 on a pool *without* l2arc?

Victor Latushkin 07/24/2013

Re: Bug 15809921 on a pool *without* l2arc?

Robin P. Blanchard 07/24/2013

Re: Bug 15809921 on a pool *without* l2arc?

Victor Latushkin 07/24/2013

Re: Bug 15809921 on a pool *without* l2arc?

Robin P. Blanchard 07/26/2013

Re: Bug 15809921 on a pool *without* l2arc?

Victor Latushkin 07/26/2013

Re: Bug 15809921 on a pool *without* l2arc?

Robin P. Blanchard 07/26/2013
 
 
Close
loading
Please Confirm
Close