love wife & love life —Roger 的Oracle技术博客

Phone:18180207355 提供专业Oracle数据恢复、性能优化、迁移升级、紧急救援等服务

Ask

  • 你好!我看到了你的这个文章http://www.killdb.com/2011/11/29/ipc-send-timeout-error-caused-2-nodes-to-reboot-in-rac.html  
    我们现在有个库也存在同样的问题,太郁闷了,请了好多工程师也搞不定,我想问一下你的问题解决了没有!

  • to lishaolong:

    你确定你的问题跟我这里完全一样吗?版本?也是10201? 我这里最后的处理方式我其实已经在后面的回复写了,主要是做了如下操作:

    1. 修改user limit;
    2. 修改udp相关参数;
    3. 调整sequence cache值;
    4. 关闭DRM

    最重要的一点是将DRM 关闭,我这里的问题应该已经解决了,上周调整以后,目前未出现任何问题,补充一点的是,drm关闭以后,可能会带来一点gc方面的等待影响,不过很小。

  • ora_crazy

    你好!我最近学习了一下分区表 请问分区表如何能实现自动的根据分区字段(日期类型)添加分区呢?还有一个问题想请教一下,遇到锁表问题和锁等待问题老是不知从何入手,麻烦帮我指点一下思路 呵呵

  • to ora_crary:

    1. 自动添加分区?不太明白,你是指自动split吗?
    2. 锁问题其实说简单也简单,说复杂也复杂,复杂的是其原理,简单的是通常我们快速处理问题是通过v$lock,v$locked_object,v$session 就可以直接定位holder和waiter,不过我个人更喜欢使用oradebug hanganalyze n;

  • max

    roger:
    你好,
    有个问题想要问你一下:生产系统需要恢复一个月以前的一个归档文件(已经被删除,但是备份到磁带库中去了一份),如何操作。需要考虑到那些问题(会遇到的问题,或者可能出现的问题都考虑进去)。谢谢!

  • to max:

    用的第三方备份软件吗?要看你是怎么备份的了?是数据文件和归档分开备份还是写到一起的备份集,考虑到文件大小,可以先外挂一个盘mount一个新的文件系统,然后用第三方软件恢复到新的文件系统中。

  • 拜读了!

  • admin

    to jeffrey:
    多谢支持!

  • Dbaliu

    hi roger:前几天做一个数据库表的查询的时候,有个错误 ORA-29275: partial multibyte character,后来测试了一下,对问题列进行了update修改,这时用 secure crt软件可以正常显示值,不报错,使用plsql developer软件查询时仍然是这个错误,又使用length以及dump命令对问题列进行查询的时候发现length=15 而dump后面的Len=18,问一下这个问题有没有办法彻底解决?

    • Oracledba

      可能跟客户端字符集也有关系,修改下nls_lang,设置为server端一致。 因为plsql是依赖oracle客户端的,而CRT则不需要。

      • Dbaliu

        客户端字符集要是不能修改怎么办?

  • 辉龙 张

    HI,roger:我有个oracle 10g RAC的环境,使用了OCFS2(ocfs心跳使用的是public网络),近来出现”o2net_connect_expired:1664 ERROR”问题,导致RAC两个节点重启.从日志看应该是OCFS2心跳网络故障问题导致的.硬件方面,厂家还在分析排查硬件问题.但数据库方面,我不确定是否要更换ocfs心跳为priv?还是BOND绑定网卡?这方面想请教roger,给指点指点!谢谢!

    • oracledba

      hi,你好!

      就个人经验来看,ocfs不是太稳定,我们的客户中几乎没有使用ocfs做生产的。
      从你贴的错误来看,明显是ocfs的问题,超过阈值就会被驱逐。 但是从错误来看似乎有点像是防火墙导致的,你可以检查下。chkconfig iptables off.
      另外,你ocfs的心跳可以考虑换成priv的,或许一定作用,比较public的压力通常较大,而priv的相对低很多,rac priv心跳内耗太大的情况除外

      • 辉龙 张

        谢谢roger!
        我查看了两台服务器的iptables:

        [root@node1 ~]# chkconfig –list |grep iptables
        iptables 0:off 1:off 2:on 3:on 4:on 5:on 6:off
        [root@node1 ~]# service iptables status
        Firewall is stopped.
        现有如下问题:
        1>是否需要执行chkconfig iptables off
        2>ocfs的心跳换成priv,可以直接修改ocfs配置文件吗?(/etc/ocfs/cluster.conf)
        3>后续是否可以考虑把priv网卡做bond

  • 向永

    roger,你好
    我在windows下有一套3節點的oracle 10.2.0.5 RAC數據庫,每次有節點因異常被驅逐出群集,其他兩個節點重新進行reconfig時,ocssd.log文件中都會顯示clssnmHandleSync: diskTimeout set to (297000)ms和clssgmStartNMMon: Waiting 300 seconds for node diagnostics on failed nodes

    目前RAC數據庫Network Heartbeat misscount設置為300s,Voting Disk Heartbeat IOT設置為200s

    想請教roger兩個問題:

    1、disktimeout set to 297000ms和waiting 300 seconds是什麽意思,這些時間是否可以減少?

    2、297000ms和300 seconds是不是和misscount和IOT設置的值有關係?

    謝謝!

    附上節點db02出現異常時,節點db01的ocssd.log部份內容:

    [ CSSD]2013-06-05 06:56:05.040 [4088] >WARNING: clssnmPollingThread: node db02 (2) at 90% heartbeat fatal, eviction in 0.571 seconds seedhbimpd 1

    [ CSSD]2013-06-05 06:56:05.602 [4012] >TRACE: clssnmHandleSync: diskTimeout set to (297000)ms

    [ CSSD]2013-06-05 06:56:05.602 [4012] >TRACE: clssnmHandleSync: Acknowledging sync: src[3] srcName[db03] seq[24] sync[6]

    [ CSSD]2013-06-05 06:56:05.602 [1096] >USER: NMEVENT_SUSPEND [00][00][00][0e]

    [ CSSD]2013-06-05 06:56:05.602 [4012] >TRACE: clssnmHandleUpdate: common properties are 3,5,6,7,10,13

    [ CSSD]2013-06-05 06:56:05.602 [4012] >TRACE: clssnmUpdateNodeState: node 1, state (3/3) unique (1370165674/1370165674) prevConuni(0) birth (2/2) (old/new)

    [ CSSD]2013-06-05 06:56:05.602 [4012] >TRACE: clssnmUpdateNodeState: node 2, state (3/0) unique (1370167023/1370167023) prevConuni(0) birth (5/5) (old/new)

    [ CSSD]2013-06-05 06:56:05.602 [4012] >TRACE: clssnmDeactivateNode: node 2 (db02 ) left cluster

    [ CSSD]2013-06-05 06:56:05.602 [4012] >TRACE: clssnmUpdateNodeState: node 3, state (3/3) unique (1370165204/1370165204) prevConuni(0) birth (1/1) (old/new)

    [ CSSD]2013-06-05 06:56:05.602 [4012] >USER: clssnmHandleUpdate: SYNC(6) from node(3) completed

    [ CSSD]2013-06-05 06:56:05.602 [4012] >USER: clssnmHandleUpdate: NODE 1 (db01) IS ACTIVE MEMBER OF CLUSTER

    [ CSSD]2013-06-05 06:56:05.602 [4012] >USER: clssnmHandleUpdate: NODE 3 (db03) IS ACTIVE MEMBER OF CLUSTER

    [ CSSD]2013-06-05 06:56:05.602 [4012] >TRACE: clssnmHandleUpdate: diskTimeout set to (297000)ms

    [ CSSD]2013-06-05 06:56:05.617 [1096] >TRACE: clssgmStartNMMon: Waiting 300 seconds for node diagnostics on failed nodes

    [ CSSD]2013-06-05 07:01:05.606 [368] >TRACE: clssgmDispatchCMXMSG(): got message type(7) src(3) incarn(6) during incarn(5/5)

    [ CSSD]2013-06-05 07:01:05.637 [5764] >TRACE: clssgmReconfigThread: started for reconfig (6)

    [ CSSD]2013-06-05 07:01:05.637 [5764] >USER: NMEVENT_RECONFIG [00][00][00][0a]

  • 长风

    请教个问题,这个故障怎么解决

  • 长风

    CREATE CONTROLFILE DATABASE “ahb” NORESETLOGS ARCHIVELOG

    *

    ERROR at line 1:

    ORA-01503: CREATE CONTROLFILE failed

    ORA-01565: error in identifying file

    ‘/oracle/oradata/ahb/oradata1/system01.dbf’

    ORA-27037: unable to obtain file status

    Linux Error: 2: No such file or directory

    Additional information: 3

    • Roger

      错误提示很明确,首先你确认文件是否存在。另外重建controlfile的时候,Oracle会读取数据文件头,也就是说如果该文件的文件头如果损坏的话,那么操作会失败的。

  • 墨镜

    问题:SUSE11 安装 Oracle11g,在进行到 copy ‘enszhs.msb’ 75%时卡住不动了。

    日志最后一条记录:

    信息: 调用 查询generalPortQueries2.1.0.19.8 getFreePort

    lowerPortNumber = 6150

    upperPortNumber = 6199

    currentOracleHome = /usr/local/oracle/product/11.2.0/db

    portName = Oracle Notification Server Local port

    oracleHomes = /usr/local/oracle/product/11.2.0/db

    configurationPath = /usr/local/oracle/product/11.2.0/db/opmn/ons.config

    attributeName = local

    日志中发现的异常:

    信息: 调用 查询globalVarQueries2.1.0.4.1 getGlobalVariable

    variable = oracle.jdk.donotinstall
    信息:
    查询异常错误: VariableNotFoundException
    查询异常错误类: class oracle.sysman.oii.oiil.OiilQueryException
    信息: false

    信息: 调用 查询areasQueries10.2.0.1.0 getProductVersion

    location =

    name = oracle.server
    信息:
    查询异常错误: HomeNotFoundException
    查询异常错误类: class oracle.sysman.oii.oiil.OiilQueryException

    信息: 调用 查询areasQueries10.2.0.1.0 getProductHome

    name = oracle.sysman.top.agent

    startVersion = 10.2.0.0.0

    endVersion = 10.2.9.9.9

    acceptCompatible = null
    信息:
    查询异常错误: ProductNotFoundException
    查询异常错误类: class oracle.sysman.oii.oiil.OiilQueryException
    信息:

    信息: 调用 查询globalVarQueries2.1.0.4.1 getGlobalVariable

    variable = oracle.iappserver.b_coldFailOverInstall
    信息:
    查询异常错误: VariableNotFoundException
    查询异常错误类: class oracle.sysman.oii.oiil.OiilQueryException
    信息: false

    信息: 调用 查询globalVarQueries2.1.0.4.1 getGlobalVariable

    variable = oracle.iappserver.b_disasterRecoveryInstall
    信息:
    查询异常错误: VariableNotFoundException
    查询异常错误类: class oracle.sysman.oii.oiil.OiilQueryException
    信息: false

    信息: 调用 查询clusterQueriesEx10.2.0.1.0 getCRSLocation
    信息:
    查询异常错误: CRSHomeNotFoundException
    查询异常错误类: class oracle.sysman.oii.oiil.OiilQueryException
    信息:

    variable = oracle.apache.SSLlisten
    信息:
    查询异常错误: VariableNotFoundException
    查询异常错误类: class oracle.sysman.oii.oiil.OiilQueryException
    信息: 4443

    信息: 调用 查询clusterQueriesEx10.2.0.1.0 getCRSLocation
    信息:
    查询异常错误: CRSHomeNotFoundException
    查询异常错误类: class oracle.sysman.oii.oiil.OiilQueryException
    信息:

    麻烦帮忙看下,这是什么原因?

  • roger

    可能是资源的问题,你确认磁盘空间,IO这些是否充足。 如果没报错,那么就稍微等一会儿。

    • 墨镜

      roger,你好,磁盘空间28G空闲,交换空间8G,内存2G。有等过4小时也是如此一致在此处卡住不动很困惑,日志中有几处异常信息,不知道是不是因为这个,最后一行有个UDPFlag=null。求解麻烦在帮忙看看 谢谢

  • keqin qi

    Roger 你好!
    10.2.0.4的数据库 rhel5.2 系统
    exp全库导出的时候报错:
    EXP-00008: ORACLE error 980 encountered
    ORA-00980: synonym translation is no longer valid
    EXP-00000: Export terminated unsuccessfully
    查看JVM模块是valid状态,经查看DST JVM patch 数据库也有;
    用expdp导出不报错;
    重新跑了一遍utlrp.sql修复无效对象之后 还是报相同的错误;请教大神们,有没有好的解决方法?

  • roger:
    刚安装的RAC集群11.2.0.3,ASM实例,使用PL/SQL 连接scan地址偶尔连上偶尔报ORA-12537,单独连接A节点正常,单独连接B节点报错ORA-12537,连接被关闭。后台日志报错

    TNS-12546: TNS:permission denied
    TNS-12560: TNS:protocol adapter error
    TNS-00516: Permission denied
    Linux Error: 13: Permission denied
    集群状态正常,数据库正常,scanIP 可以自动飘移,该如何解决

  • roger:
    刚安装的RAC集群11.2.0.3,ASM实例,使用PL/SQL 连接scan地址偶尔连上偶尔报ORA-12537,单独连接A节点正常,单独连接B节点报错ORA-12537,连接被关闭。后台日志报错

    TNS-12546: TNS:permission denied
    TNS-12560: TNS:protocol adapter error
    TNS-00516: Permission denied
    Linux Error: 13: Permission denied
    集群状态正常,数据库正常,scanIP 可以自动飘移,该如何解决

  • 成光 何

    Roger 你好!

    我oracle 数据库连接、查询越来越慢,跪求指导啊!solaris 5.10,oracle 11g ,我生成了awrrpt 报告,但不会看。。。

  • 宾彬

    oracle 11g r2 session一直在涨,用命令查后,发现SYSMAN这个账号连接数一直在增加

18180207355
加Q咨询