=====Oracle Real Application Cluster 11g/12g Umgebung überwachen - Was muss regelmäßig geprüft werden=====
Um den Betrieb einer RAC Umgebung sicherzustellen, ist das wichtig regelmäßig den Zustand des Clusters zu überwachen.
Ist der Oracle Enterprise Manager im Einsatz, kann das sehr einfach umgesetzt werden.
Steht der OEM nicht zur Verfügung, muss ein entsprechendes Monitorring aufgesetzt werden.
Überwacht werden muss neben dem typischen relevanten Parameter eines produktiven Servers wie Disk etc. :
Aktiv Fehler propagieren
* ONS - Oracle Notification Service - für die Alarmierung einbinden
Min all 5 Minute:
* Zeitabweichung zwischen den einzelnen Datenbank Knoten > 1s = Fehler
* Sind alle Cluster Diensts online
* Sind alle ASM Platten online
* Interconnect ohne Packet Fehler
Min täglich
* Integrität OCR
----
====ONS für das Monitoring einbinden ====
Einfachste Lösung
Script unter $GRID_HOME/racg/usrco anlegen um alle Events abzufangen:
/opt/12.1.0.2/grid/racg/usrco
#!/bin/bash
echo "`date` : $@" >> /tmp/callout_log.log
Auf den Spool Out von diesem Script das Überwachungstool ansetzen.
Schneller: Alle Nachrichten via Mail an die Überwachung versenden, bzw. SOA Request absetzen.
Siehe auch => http://www.oracle.com/technetwork/database/options/clustering/overview/fastapplicationnotification12c-2538999.pdf
----
==== OCR ====
==== Konfiguration und Inhalt der der Cluster Registry ====
Datei /etc/oracle/ocr.loc überprüfen
ocrconfig_loc=+DATA
local_only=FALSE
Integrität mit ocrcheck prüfen
rac01$ ocrcheck
Status of Oracle Cluster Registry is as follows :
Version : 3
Total space (kbytes) : 262120
Used space (kbytes) : 3336
Available space (kbytes) : 258784
ID : 1830903728
Device/File Name : +DATA
Device/File integrity check succeeded
Device/File not configured
Device/File not configured
Device/File not configured
Device/File not configured
Cluster registry integrity check succeeded
Logical corruption check bypassed due to non-privileged user
Wo sind die Backups der OCR Platte und wieviele gibt es (default alle 4 Stunden drei stück , eins pro Tag, eins pro Woche)\\
ocrconfig -showbackup
[oracle@c7000rac2 crs]$ ocrconfig -showbackup
myrac1 2010/09/16 13:12:56 /u01/app/11.2.0/grid/cdata/myraccluster/backup00.ocr
myrac1 2010/09/16 09:12:56 /u01/app/11.2.0/grid/cdata/myraccluster/backup01.ocr
myrac1 2010/09/16 05:12:55 /u01/app/11.2.0/grid/cdata/myraccluster/backup02.ocr
myrac1 2010/09/15 05:12:53 /u01/app/11.2.0/grid/cdata/myraccluster/day.ocr
myrac1 2010/09/10 01:49:46 /u01/app/11.2.0/grid/cdata/myraccluster/week.ocr
PROT-25: Manual backups for the Oracle Cluster Registry are not available
Inhalt der OCR Registry
ocrdump -stdout > ocr_dump.txt
Wo liegen die Voting Disks
myrac2$ crsctl query css votedisk
## STATE File Universal Id File Name Disk group
-- ----- ----------------- --------- ---------
1. ONLINE 200ee9ba16614f0cbf6b134a10fcb28e (/dev/oracleasm/disks/DATAX) [DATA]
Located 1 voting disk(s).
Mit clufy testen ob alles ok ist
rac2 $ cluvfy comp ocr
----
==== Name des Clusters ====
${ORACLE_HOME}/bin/cemutlo -n
----
==== Interconnect ====
Welches Interface wird wie verwendet?\\
oifcfg getif
Wie ist der Oracle Clusterware Heartbeats eingestellt?
$ crsctl get css misscount
30
----
==== Netzwerk ====
Netzwerk allgemein prüfen:
#Interfaces
ifconfig
#Routen
ip route
route
#Namensauflösung
host
host
#Ping
ping
# Check Bonding:
grep IP /etc/sysconfig/network-scripts/ifcfg-bond*
grep MASTER /etc/sysconfig/network-scripts/ifcfg-eth*
cat /proc/net/bonding/bond0 | grep -E "Slave Interface|Permanent"
#Vlans?
grep VLAN /etc/sysconfig/network-scripts/ifcfg-eth*
Cluster:
#Clufy test
cluvfy comp nodecon -n all -verbose
# Konfiguration:
oifcfg getif
srvctl config network
srvctl config vip -n
srvctl config nodeapps
# aktueller Status im Cluster abfragen:
srvctl status nodeapps
crsctl stat res -t |grep -E -C 2 'net|vip'