最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
问答文章1 问答文章501 问答文章1001 问答文章1501 问答文章2001 问答文章2501 问答文章3001 问答文章3501 问答文章4001 问答文章4501 问答文章5001 问答文章5501 问答文章6001 问答文章6501 问答文章7001 问答文章7501 问答文章8001 问答文章8501 问答文章9001 问答文章9501
当前位置: 首页 - 科技 - 知识百科 - 正文

记一次因网卡心跳故障引发RAC节点重启故障分析

来源:懂视网 责编:小采 时间:2020-11-09 15:01:44
文档

记一次因网卡心跳故障引发RAC节点重启故障分析

记一次因网卡心跳故障引发RAC节点重启故障分析:数据库与CRS版本:10.2.0.4 down机过程分析 序号 节点 时间 动作 日志源 1 二 Jul 4 22:48:15 XXdb2 kernel: NETDEV WATCHDOG: eth1: transmit timed out bnx2: fw sync timeout, reset code = 1020015 OS 2
推荐度:
导读记一次因网卡心跳故障引发RAC节点重启故障分析:数据库与CRS版本:10.2.0.4 down机过程分析 序号 节点 时间 动作 日志源 1 二 Jul 4 22:48:15 XXdb2 kernel: NETDEV WATCHDOG: eth1: transmit timed out bnx2: fw sync timeout, reset code = 1020015 OS 2

数据库与CRS版本:10.2.0.4 down机过程分析 序号 节点 时间 动作 日志源 1 二 Jul 4 22:48:15 XXdb2 kernel: NETDEV WATCHDOG: eth1: transmit timed out bnx2: fw sync timeout, reset code = 1020015 OS 2 二 Jul 4 22:48:29 -- Jul 4 22:49 CRS-1612:node

数据库与CRS版本:10.2.0.4

down机过程分析

序号

节点

时间

动作

日志源

1

Jul 4 22:48:15

XXdb2 kernel: NETDEV WATCHDOG: eth1: transmit timed out

bnx2: fw sync timeout, reset code = 1020015

OS

2

Jul 4 22:48:29

--

Jul 4 22:49

CRS-1612:node XXdb1 (1) at 50% heartbeat fatal, eviction in 29.118 seconds

]CRS-1610:node XXdb1 (1) at 90% heartbeat fatal, eviction in 5.128 seconds

CRS

3

Jul 4 22:54:14

XXdb2 syslogd 1.4.1: restart

OS

4

Jul 4 22:54:14

XXdb2 ifup: Device eth1 has different MAC address than expected, ignoring.

XXdb2 network: Bringing up interface eth1: failed

OS

5

Jul 5 01:22:27 -- Jul 5 01:58:49

XXdb2 logger: Cluster Ready Services waiting on dependencies. Diagnostics in /tmp/crsctl.5659

OS

6

Jul 5 01:59:30

XXdb2 shutdown: shutting down for system reboot

OS

7

Jul 5 03:00:08

CRS-1605:CSSD voting file is online: /dev/raw/raw18. Details in /home/oracle/product/10.2.0/crs/log/XXdb2/cssd/ocssd.log

CRS

8

Jul 4 23:00:00

CRS-1612:node XXdb2 (2) at 50% heartbeat fatal, eviction in 29.144 seconds

CRS

9

Jul 4 23:04:55

XXdb1 syslogd 1.4.1: restart

OS

从上面日志来看,整个故障过程如下:

(1) 第二节点操作系统发现eth1(心跳网卡)网络超时,随后第二节点数据库连接第一节点超时,超时4次之后,第二节点数据库强制重启操作系统

(2) 第二节点重启后, eth1起不来,导致CRS等待资源启动中,而也无法启动,CRS日志中的/tmp/crsctl.5659中记录是在等待内部心跳网卡的启动

(3) 第二节点被重启后,第一节点连接第二节点心跳超时,第一节点强制重启操作系统

(4) 问题的源头源于第二节点的心跳网络出现故障所致,并且第二节点因为eth1网卡的运行mac地址与实际mac地址不相符而导致重启服务器后eth1网卡启不来

本文作者:踩点,从事”系统架构、操作系统、存储设备、数据库、中间件、应用程序“六个层面系统性的性能优化工作

欢迎加入 系统性能优化专业群 ,共同探讨性能优化技术。群号:258187244


声明:本网页内容旨在传播知识,若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。TEL:177 7030 7066 E-MAIL:11247931@qq.com

文档

记一次因网卡心跳故障引发RAC节点重启故障分析

记一次因网卡心跳故障引发RAC节点重启故障分析:数据库与CRS版本:10.2.0.4 down机过程分析 序号 节点 时间 动作 日志源 1 二 Jul 4 22:48:15 XXdb2 kernel: NETDEV WATCHDOG: eth1: transmit timed out bnx2: fw sync timeout, reset code = 1020015 OS 2
推荐度:
标签: 重启 数据 网卡
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top