日归档:2013 年 11 月 24 日

exadata HC-检查是否有硬盘需要更换

在做exadata的检查的时候,我们通常收集如下信息: 1,exachk 2,sundiag 3,diagcollect(GI版本从11.2.0.4.x开始, 可以使用TFA Collector) 4,awr 5,db节点和cell节点的alert 6,osw 根据上述检查内容是否存在异常可能还需要 CheckHWnFWProfile等等。。。。 本文主要分析如何识别磁盘损坏的内容。 ++++++++++++++++++++++++++查看cell 的alert,检查是否有磁盘需要更换的信息: 检查cell的alert告警信息: dcli -g cell_group -l root “cellcli -e list alerthistory” 查看关键内容: 例如: +++++++++++++++++++++++++++看sundiag的信息: 收集sundiag信息后,你会发现,每个db节点和cell节点的文件非常多,包括RAID,HCA, Infiniband,。。。等等 例如: 针对磁盘损坏信息,主要检查如下内容: —————–检查坏盘: ———————检查报告了“先兆失效”的盘: ———-检查告警的磁盘信息: 使用cellcli查看磁盘的错误信息: 检查ASM的日志是否有类似如下的告警: 1. WARNING: failed to … 继续阅读

发表在 日常运维 | 标签为 , , | 留下评论

如何看待exadata的cell节点出现的writethrough/wirteback模式更换或者控制器充放电信息

Exadata使用的是LSI的disk driver,在定期进行的HC中,如果cell上出现类似下面的信息,需要考虑是否需要更换或者bug: 这个信息意味着disk controller写cache的策略从”write-back” 更改为 “write-through” 了,原因是电池学习周期(battery learn cycle)正在进行。 这个学习周期一年回周期性的执行4次,这个操作主要是每次执行一次控制器电池的充电和放电(discharge and charge)操作。 在Image 11.2.1.3之前,每个月执行一次 从Image 11.2.1.3开始,每3个月执行一次: 每年的1月/4月/7月/10月 的17日凌晨2点 这个缺省的时间(下一次学习的时间)可以使用命令修改,例如: cellcli> alter cell bbuLearnCycleTime=”2013-01-22T02:00:00-08:00″ Oracle推荐所有cell磁盘的电源学习周期是同一个时间。 众所周知,Write-through 的性能比 write-back 差。但是当存储crash或者电源丢失(looses power)发生时,write back有丢数据的风险。 因此,在电池学习周期中,会自动将写策略从写回模式(write-back)修改为写模式(Write-through) 如果在cell 的alert上看到类似下面的信息: 需要连接到cell节点,查看一下电池充电的百分比: 当充电完成后,可以在cell的alert上看到如下信息: 连接到cell节点,查看磁盘的写模式(writethrough/writeback)的状态,可以发现: 同样在 上面信息显示了10月17日凌晨:02:00cell01上有一个逻辑盘开始学习,完成时间是10月17日早上7:33。充电完成后,磁盘驱动器已经改回了writeback模式。 通常电池充电(Learning state)可能需要几个小时,如果充电完成后没有自动改回wirteback模式,可能是控制器电源出现问题,需要联系support … 继续阅读

发表在 体系架构, 安装和升级, 硬件配置 | 标签为 , , , | 留下评论