从oracle数据库故障到aix内存管理.docx -m6米乐安卓版下载

m6米乐安卓版下载-米乐app官网下载
1
从oracle数据库故障到aix内存管理.docx
844
11页
52次
2021-01-31
免费下载
某日,数据库告警最最最核心的一套数据库
1
节点
hang
,立马打开连接窗口,查看当
前系统负载,发现
topas
已经无法执行,过滤
local=no
会话
kill
掉已经无法执行,报
错无法分配内存,无法连接数据库,无奈只能重启操作系统,恢复服务。
事后最终定位问题,发现在执行下面命令报错无法分配内存,其实早已指明了故障原
因,服务器相关指标也早已指名内存不足,只是由于以下两方面原因导致定位问题走了许
多弯路,甚至一度只能猜测原因:
aix
内存由于大部分情况下有很大一部分
le cache
,导致监控长期显示内存使
用率均在
90%
以上,所以并未真正注意
aix
内存各个部分占用,导致故障服务器
内存其实早已在危险边缘试探,而我们并未及时回应服务器,调整内存。
aix
内存各个部分占比、管理方式、相关参数设置一知半解,导致未从监控数
据相关信息中发现这是由于内存不足
-
会话增长
-
内存耗尽导致。
下面就故障分析过程以及
aix
内存管理分享,供大家参考。
1.
故障现象
监控系统告警数据库
hang
,通过已连接
ssh
会话查看
cpu 100%
,服务器
hang
除已经连接用户外,无法再通过
ssh
sqlplus
连接服务器。
环境概述
数据库版本
11.2.0.4
,操作系统
aix 7.1
2.
初步分析,是
oracle
还是
os
出了问题?
一般对于远程连接无法执行命令,根据经验一般为
swap
频繁
page in
page out
,内存
耗尽导致,那到底是哪儿出了问题呢?下面就需要结合下面两部分进行分析:
操作系统
nmon
oswatcher
数据
oracle
集群日志、数据库日志进行诊断。、
2.1
数据库日志以及
ash
分析
数据库以及集群日志
故障节点
alert
日志
在故障前
alert
日志并无异常,故障期间,可以看到
alert
日志如下,
15:29
分之前日
志并无异常,未截取。
结合报错
error 1013 during filling up usn avail cache
oracle mos
有文档,但是与
发生故障
oracle
版本并不对应,现象也不匹配,所以可以仅仅作为参考。
mon jan 11 15:29:56 2021
ap01: warning -- apply server 20, sid 6085 waiting for event (since 731 seconds):
ap01: warning -- apply server 42, sid 6126 waiting for event (since 354 seconds):
ap01: warning -- apply server 45, sid 3788 waiting for event (since 342 seconds):
ap01: warning -- apply server 44, sid 3530 waiting for event (since 564 seconds):
ap01: warning -- apply server 40, sid 2419 waiting for event (since 343 seconds):
ap01: warning -- apply server 33, sid 4578 waiting for event (since 344 seconds):
mon jan 11 15:30:30 2021
ap01: warning -- apply server 31, sid 1049 waiting for event (since 435 seconds):
mon jan 11 15:32:07 2021
mon jan 11 15:32:07 2021
mon jan 11 15:32:07 2021
[27328748] error 1013 during filling up usn avail cachemon jan 11 15:32:07 2021
[19595412] error 1013 during filling up usn avail cache
***********************************************************************
***********************************************************************
mon jan 11 15:32:17 2021
[16058276] error 1013 during filling up usn avail cache
mon jan 11 15:32:12 2021
[11799172] error 1013 during filling up usn avail cache
mon jan 11 15:32:19 2021
[2886074] error 1013 during filling up usn avail cache
mon jan 11 15:32:16 2021
集群日志
可以看到是在节点
1
告警
hang
之后,集群监测到了异常。
集群日志并无相关报错信息,只是监测到
1
节点资源无法确定状态,置为
unknown
,在其集群其他
crsd
cssd
agent
日志中均类似,并无相关资源或
进程报错。
2021-01-11 15:30:48.975: [uiserver][11311]{1:44279:29645} done for ctx=132437ab0
2021-01-11 15:32:27.616: [ commcrs][11568]clsc_auth_send: (1325a2470) connection not active
of 11
免费下载
【米乐app官网下载的版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
关注
最新上传
暂无内容,敬请期待...
下载排行榜
top250 周榜 月榜
网站地图