OpenAFS のデータベース系サーバ (ka, pt, bu, vl のサービスを動かす方) を複数ホスト立ち上げると、そのうち1ホストで動いているサーバ群がデータベースのマスターサーバになる。 AFS では、このデータベースの同期を Ubik で行っていて、マスターサーバは Ubik コーディネータと呼ばれる。 IP address の最も小さなホストがコーディネータになる。
当方環境での問題は、 IP address の最も小さなデータベースサーバで bosserver を起動したときに、セルに他にデータベースサーバが動いていると exit code 15 で ka, bu, pt, vlサーバが終了してしまう、と言うもので、それだけならば大規模停電等の後の起動順で回避できるのだが、 bosserver の週1の再起動時に、自分が shutdown している間に他サーバがコーディネータになっていることを発見して再起動に失敗し bosserver 自体も終了する、という問題がある。
コーディネータの選挙をやり直すんじゃないのか? この駄目なホストの環境は MacOSX 10.3 + OpenAFS 1.2.11
つーので毎週手動で再起動していたが、 bos setrestart で never が選べるようなので、それで誤摩化すか…
以下はログの抜粋。 130.87.xx.xx がより小さな IP address を持っているが 130.87.yy.yy にコーディネータを奪われて再起動に失敗している。起動時は手動で xx.xx を起動した後 yy.yy を起動。その後日曜の 4:00 に yy.yy で bosserver の再起動が行われており、その後 xx.xx 自身の再起動は失敗(ログには残らない)
AuthLog
kerberos-iv/udp port=750 kerberos5/udp is unknown; check /etc/services. Using port=88 as default 4 Using server list from mylocal.cell cell database. Mon Aug 23 13:23:37 2004 Using level crypt for Ubik connections. Mon Aug 23 13:23:37 2004 Using 130.87.xx.xx as my primary address Mon Aug 23 13:23:52 2004 Starting to process AuthServer requests Starting to listen for UDP packets start 5 min check lwp Mon Aug 23 13:23:57 2004 ubik: A Remote Server has addresses: Mon Aug 23 13:23:57 2004 130.87.yy.yy Mon Aug 23 13:23:57 2004 Mon Aug 23 13:23:58 2004 ubik:server 130.87.yy.yy is back up: will be contacted through 130.87.yy.yy Sun Aug 29 04:00:30 2004 ubik: A Remote Server has addresses: Sun Aug 29 04:00:30 2004 130.87.yy.yy Sun Aug 29 04:00:30 2004
PtLog
Mon Aug 23 13:23:37 2004 Using 130.87.xx.xx as my primary address Mon Aug 23 13:23:57 2004 ubik: A Remote Server has addresses: Mon Aug 23 13:23:57 2004 130.87.yy.yy Mon Aug 23 13:23:57 2004 Mon Aug 23 13:23:58 2004 ubik:server 130.87.yy.yy is back up: will be contacted through 130.87.yy.yy Sun Aug 29 04:00:30 2004 ubik: A Remote Server has addresses: Sun Aug 29 04:00:30 2004 130.87.yy.yy Sun Aug 29 04:00:30 2004
VlLog
Mon Aug 23 13:23:37 2004 Using 130.87.xx.xx as my primary address Mon Aug 23 13:23:51 2004 Starting AFS vlserver 4 (/Library/OpenAFS/Tools/root.server/usr/afs/bin/vlserver) Mon Aug 23 13:23:57 2004 ubik: A Remote Server has addresses: @(#) OpenAFS 1.2.10 built 2004-01-08 Mon Aug 23 13:23:57 2004 130.87.yy.yy Mon Aug 23 13:23:57 2004 Mon Aug 23 13:23:58 2004 ubik:server 130.87.yy.yy is back up: will be contacted through 130.87.yy.yy Sun Aug 29 04:00:30 2004 ubik: A Remote Server has addresses: Sun Aug 29 04:00:30 2004 130.87.yy.yy Sun Aug 29 04:00:30 2004
BackupLog
08/23/2004 13:23:49 Waiting for quorum election 08/23/2004 13:24:54 Have established quorum 08/23/2004 13:24:54 Ready to process requests at Mon Aug 23 13:24:54 2004
[referer:
The script did not produce proper HTTP headers. Please see the error log to see the detail of the errors. Depending on the server configuration, you can also run thisscript under CGIWrap debugging. Usually, either rename or linkthe script temporarily to a file which ends with .cgidextension, or add a AddHandler cgi-script-debug .cgiline to your .htaccess file.
]