日归档:2014 年 3 月 13 日

使用ILOM收集Exadata的硬件故障信息(snapshot)

    当遇到硬件故障时,我们通常会收集硬件故障的信息提交到SR或者硬件工程师,那么如何收集故障信息呢? 在Exadata或者配置了ILOM模块的X86机器上,我们都可以使用两种方法收集信息。 方法一,使用Web界面登陆ILOM: 点击run后,会弹出一个窗口让你选择将收集的信息保存在那个目录,之后,点击保存按钮,然后就可以将这些日志发送到SR或者给硬件工程师确认。 这个过程也可以通过命令行完成。 方法2:使用命令行收集故障信息,大致步骤如下: 使用SSH登陆故障节点的ILOM(IP地址在配置文件中可以查找到): 这里dump_uri的格式如下: 执行完这不后,看到“Snapshot Complete”提示就可以完成了. 生成的日志在该主机的(这里是 192.168.1.2 )的“/tmp”目录下。

发表在 日常运维 | 标签为 , | 留下评论

Exadata更换硬盘的操作过程和解释

在巡检时,发现cell的alert有如下告警: 我们注意到有这样的信息,就表示磁盘有损坏的情况,结合sundiag信息,可以发现磁盘确实损坏,需要更换。 另外,此时也可以通过直接看机柜,该磁盘为闪蓝色灯,表示进行拔出的操作了。 关键信息: SEAGATE Model Number : ST360057SSUN600G Serial Number : E0P387 Slot Number : 9 Cell Disk : CD_09_dm01cel02 换盘前,我们一般作比较细致的检查: 1.在db节点上grid用户登录,这是要确认一下asm disk是不是被drop掉。drop掉就可以直接更换,如果没有,就需要手动去drop了。 这里表示磁盘celldisk:CD_09_dm01cel02已经被ASM自动删除了,且当前没有正在运行的rebalance操作。 2. 在相应的存储节点(dm01cel02)上进行确认检查: 确认物理盘状态: 这里发现磁盘的报错信息跟alert是一致的: 磁盘的物理位置和编号如下: 我们这里是HDD9损坏。 此时从机柜边上观察,如果磁盘闪蓝灯则可以直接拔出,如果是闪橘色灯,那么需要手工关闭这个磁盘设备,然后再拔出: alter physicaldisk 20:9 serviceled off 更换完成后需要检查: 1,磁盘的LED指示灯变为绿色 2,确认新换盘的celldisk,griddisk状态是normal … 继续阅读

发表在 日常运维 | 标签为 , , , , , , | 留下评论