站内搜索
Oracle证书
分类目录
- ASM (30)
- Database (86)
- backup&recovery (21)
- expdp/impdp (5)
- Installation and Deinstall (31)
- network (7)
- ORA-600 or ORA-7445 (6)
- Performence Tuning (13)
- troubleshoooting (2)
- Dataguard (7)
- EBS (3)
- Exadata (120)
- FAQ (19)
- POC和性能调整 (11)
- 体系架构 (19)
- 内部机制 (22)
- 安装和升级 (14)
- 性能指标 (8)
- Exadata V1 (1)
- Exadata V2 (1)
- Exadata X2-2 (2)
- Exadata X3-2 (1)
- Exadata X4-2 (1)
- FAQ (1)
- 故障诊断 (3)
- 日常运维 (15)
- 硬件配置 (43)
- Exadata V1 (6)
- Exadata V2 (6)
- Exadata X2-2 (6)
- Exadata X3-2 (8)
- Exadata X4-2 (8)
- FAQ (1)
- FAQ (16)
- Internal (21)
- Linux (20)
- MYSQL (8)
- OGG (1)
- ORA-600/7445 (2)
- ORA-XXXXX (5)
- Oracle 11.1 & Oracle11.2 (6)
- ORACLE 12C (21)
- Oracle 8 & Oracle 8i (1)
- RAC (47)
- SAP (2)
- Scripts (6)
- 未分类 (1)
- 虚拟化 (1)
2024 年十一月 S M T W T F S « Nov 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 文章归档
-
近期文章
- 针对最近黑客攻击数据库的解决方案和预防建议
- CentOS7.2(RHEL 7.2)的CPU占用高(%system 占用高)
- Oracle 12.1 RAC 系列 – 配置第二个网络和相应的SCAN2
- Oracle 12.1 RAC 系列-安装新主机,识别老存储和恢复数据库
- Oracle 12.2的Sharding-1-基础概念
- 11.2 RAC 系列-安装新主机,识别老存储-3-配置老存储的数据库
- 11.2 RAC 系列-安装新主机,识别老存储-2-准备识别数据库
- 11.2 RAC 系列-安装新主机,识别老存储-1-识别ASM磁盘
- 2016年1月PSU列表
- 单实例数据库转换为RAC数据库–使用rconfig转换
近期评论
- tom 发表在《exadata巡检报告的模板》
- cyx 发表在《关于我》
- 李科胜 发表在《EBS克隆–db和app分开在两个服务器上》
- xiao 发表在《exadata巡检报告的模板》
- Chris Sun 发表在《使用Oracle 11.2的DBMS_RESOURCE_MANAGER.CALIBRATE_IO对Exadata X5(HC)进行测试》
标签归档:ilom
Exadata上精彩的硬件告警(准确的说,应该是SUN ILOM的)
昨天Exadata上发出了一封靓丽的告警邮件,如下图: 没见过这么漂亮的邮件,清晰的告诉你是什么部件(可惜我还不认识那个大大的就是CPU……汗……) 又惊又喜的傻Lunar以为硬件坏了,高兴的是,SUN的ILOM的告警做的真棒啊 但是奇怪的是才用了没多久啊,而且比较爱惜的,怎么回事? 后来,在oracle官网搜索这个硬件, 发现是CPU边上的一个部件,貌似PCIe“故障”了。系统组的同事log了SR,等待回复。 晚上回家,按照以往的管理,我也到ILOM上搜索了一下,然后按照官方文档收集了ILOM的snapshot和一些必要信息传到SR上,SR的回复我没看懂: ” 也就是说,33%的可能是是硬件损坏…… 在oracle官网找到如下方法判断,下面的输出是ILOM 3.2以上的输出(老版本的输出本文后面有例子) 收集的信息,跟SR上老外的回复差不多,也是每个部件都有33%的可能性是硬件损坏…… 按照以往的理解,猜测是“先兆损坏”,通常这种情况,工程师可能会把硬件进行一次插拔,如果没问题就算了,如果有问题,可能就是硬件损坏。 于是又到ILOM上检查,什么硬件,根据文档说明和ILOM的指示,大概知道是什么东西了(虽然每个东西长什么样子,我没见过……基本上从毕业后就没有拆过机箱,摸过螺丝的Lunar感觉很无奈……): . /SYS/MB ————-这个表示是主板 /SYS/MB/P0 ————这个表示是CPU /SYS/MB/RISER2/PCIE2 ———-这个就是文档中说的那个拗口的“PCIe 竖隔板”,2表示槽位2 . 找到硬件工程师问了一下,这个问题是因为我们插入万兆模块的时候,报的告警,不过奇怪的是为什么oracle文档中没有写明“更换万兆模块需要关机?” 行了,知道了不是硬件问题,clear即可,这个文档上有,照做即可: 检查清除结果: 顺便介绍一下老版本的ILOM输出(ILOM 3.2以前): —举例1: 输出类似 FRU : /SYS/FANBD/FM0,这个就指出了损坏的FRU是具体对应到主机上的哪一个物理组件(full physical path) —“/SYS” 底架(chassis),我理解可能是主机架,就是拆开挡板后,所有东西都插在上面的那个主机箱的含义。 —“FANBD” 风扇模块 (fan … 继续阅读
使用ILOM收集Exadata的硬件故障信息(snapshot)
当遇到硬件故障时,我们通常会收集硬件故障的信息提交到SR或者硬件工程师,那么如何收集故障信息呢? 在Exadata或者配置了ILOM模块的X86机器上,我们都可以使用两种方法收集信息。 方法一,使用Web界面登陆ILOM: 点击run后,会弹出一个窗口让你选择将收集的信息保存在那个目录,之后,点击保存按钮,然后就可以将这些日志发送到SR或者给硬件工程师确认。 这个过程也可以通过命令行完成。 方法2:使用命令行收集故障信息,大致步骤如下: 使用SSH登陆故障节点的ILOM(IP地址在配置文件中可以查找到): 这里dump_uri的格式如下: 执行完这不后,看到“Snapshot Complete”提示就可以完成了. 生成的日志在该主机的(这里是 192.168.1.2 )的“/tmp”目录下。