RAID を組んだファイルサーバが起動しない、その原因は?

RAID コントローラ故障が発生…

よく聞くお客様談として「共有ファイルが開けないので確認したところ、ファイルサーバが停止していた。電源を入れてもサーバー OS が起動しない。トラブルに備えて RAID を組んでいたのに… メーカーサポートに問い合わせたところ、RAID コントローラの故障が判明した」という RAID のトラブルがあります。

ちなみに、RAID は複数台のハードディスクを使って、高速でさらにハードディスク故障のリスクを低減する仕組みになっています。最新の RAID6 でしたら、4 台のハードディスク中 2 台まで故障しても、残りの 2 台で稼働できます。トラブルに備えて RAID 構成にするケースも多いでしょう。ところがこの RAID コントローラは 1 つしかありません。RAID 機能を構成する部品のため、これが壊れてしまうとサーバーは起動できなくなります。

RAID コントローラが故障した場合の対処法は、正常な RAID ボードへの交換修理です。多くの RAID ボードが情報となる RAID パラメータをハードディスクに置きますので、部品の RAID ボードさえ変えればそのまますぐに使えるようになります。ただし、うかつに交換すると悪化させてしまう恐れもあります。ここは要注意です。

それでは以下の構成で RAID ボードが故障した時の復旧方法についてレポートします。

  1. サーバ故障の特定方法
  2. RAID ボードが故障した時の復旧方法
  3. 万が一、復旧できないときは…

サーバ故障の特定方法

RAID コントローラが故障した時は、BIOS のブートオプションで RAID アレイが表示されない、RAID BIOS が表示されないといった現象になります。その現象だけで確認ができます(オンボードでも同様)。

またこちらは稀ですが、マザーボード故障もあります。RAID ボードとマザーボードの接続部分が壊れているなんてことも。この場合も RAID ボードが使えないため上記と同じ現象になりますが、マザーボードが故障しています。

なお、ハードディスク故障が原因であれば下図のように RAID BIOS に入れますし、その際に RAID アレイで「 Failed 」、「 Degraded 」や、メンバーで「 Error Occurred 」といったエラーが表示されます。

この RAID BIOS が表示される場合、RAID コントローラは正常です。

ちなみに CPU やメモリといった部品が故障している場合は、電源が入らない、電源投入時にピーピー鳴るなど、違う現象が起こります。これらの部品は対象外です。

それでは次で RAID コントローラが故障した時の復旧方法をご説明します。

RAID ボードが故障した時の復旧方法

まずは正常な RAID ボードが必要です。下はハードディスクと RAID ボードの写真です。メーカーに在庫があれば RAID ボードを購入し交換します。在庫がない場合は中古部品をネットで探すしかありません。

もし同じモデルの筐体をお持ちであれば、ハードディスクを取り出して同じモデルの筐体へ乗せ換えるのでも大丈夫です。稀ではありますが、マザーボード故障の場合もあり、正常に稼働する筐体へ乗せ換えたほうが原因究明しやすいと言えるでしょう。RAID ボードが同じことを必ず確認してください。

またオンボードの場合はマザーボードに RAID コントローラが搭載されているため、マーザーボードを交換します。もちろん、同じモデルの筐体をお持ちであれば、そちらにハードディスクを乗せ換えでも大丈夫です。

ちなみに、ハードディスクを乗せ換えて動作するのか(ライセンス違反など)と思われるかもしれませんが、メーカー製の筐体の場合はまったく問題なく動作します。

なお、多くのモデルが RAID パラメータをハードディスクに置きますが例外もあります。お使いのモデルが RAID ボード交換で復旧するかどうか、予めメーカーサポートに確認してください。

故障部品を正常な部品に交換したり、または正常な筐体へハードディスクを乗せ換えれば、トラブル前の状態に復旧します。復旧したらお早めにバックアップを取ってください。