love wife & love life —Roger 的Oracle技术博客

Phone:18180207355 提供专业Oracle数据恢复、性能优化、迁移升级、紧急救援等服务

11.2.0.4 RAC CRS diskgroup auto dismount问题

本站文章除注明转载外,均为本站原创: 转载自love wife & love life —Roger 的Oracle技术博客

本文链接地址: 11.2.0.4 RAC CRS diskgroup auto dismount问题

这几天出差到甘肃,某客户的集群有点小问题。其中节点的crs检测发现有点异常,不过怪异的是业务却没有受到任何影响。如下是我检测的结果:

我检测发现crsct status res -t -init 执行ok,执行crsctl status res -t报错。由于客户使用的是asmlib,我检查发现asmlib的disk都是正常的,如下:

检查asmlib的状态都是ok的,同时在节点1的查看asm disk,发现crs磁盘组都无法识别:

同时查看crs日志也会发现Oracle 认为crs磁盘中无法访问:

到这里完全没有任何思路,我们还是来仔细分析下asm alert log,如下所示:

我们可以发现,asm做了一个check,发现失败(ASM Health Checker found 1 new failures),然后就强行把crs 磁盘组dismount了。我们进一步来分析下trace 文件的内容:

进一步我分析gmon进程trace 文件内容发现其中存在call stack的内容,如下:

根据上述内容,分析发现与Oracle  Bug 18694414 完全一致。如下是该bug的call stack的描述:

根据Oracle mos文档的描述,建议将_asm_hbeatiowait 参数调整为185,因为LInux环境disk 默认的timeout为180,如下:

    分享到:
18180207355
加Q咨询