Verity Spider 構文

以下の節では、Verity Spider のインデックス作成タスクの基本的なタイプの構文について説明します。

概要

新しいコレクションのインデックス作成タスクに入る前に、関連する規定スタイルのファイルをコピーし、一連のテンプレートスタイルを事前に把握しておく必要があります。

Information Server において複数の Verity Spider のジョブを同時に実行すると、ホストが検索パフォーマンス上の問題を起こす場合がありますので注意してください。 ただし、ユーザが検索を行っている可能性がある場合に、全くインデックス作成ジョブを実行できないわけはありません。インデックス作成ジョブの実行中でもコレクションの検索は可能です。 パフォーマンスの最適化を図るために、インデックスの作成ジョブを順次行っていくことにより、サーバがオーバーロードしないようにしてください。

Verity Spider のコマンド

Verity Spider で最も基本的なレベルでは、コマンドが以下のものから構成されます。

vspider -initialize -collection coll [options]

-initialize-start または -refresh (開始点が変更された場合)のいずれかである場合、ならびに Verity Spider の対象範囲を指定するために-collectionが必要な場合、[オプション] は、本章で後ほど説明するオプション同士の組み合わせによりほぼ無数となります。

たとえば、次のとおりです。

c:¥cfusion¥bin¥browse /common = c:¥cfusion¥verity¥common
-collection c:¥new -start http://localhost -indinclude *

だだし、インデックス作成タスクの性質によっては、他のオプションとの依存関係を持つオプションも存在しますのでご注意ください。 たとえば以下のような場合があります。

Verity Spider 実行ファイルを既定のインストール ディレクトリから起動しない場合、同ディレクトリをパスに含める必要があります。 これは、Verity Spider を正しく実行させるために実行ファイルが他のファイルに依存しているためです。

Verity Spider の実行ファイルが置かれている場所の既定値は以下の通りです。

verity/prdname/platform/admin

このとき、verity/prdnameがインストール ディレクトリ内のユーザ定義可能な部分にあり、platformはオペレーション システムによって変化します。

コマンドファイルの使用

インデックス作成コマンドを簡単に再利用してアーカイブしたい場合、-cmdfile オプションによる抽象化を利用する必要があります。 ASCII テキスト ファイルを使用してタスクのオプションを保存することにより、オプションのパラメータ値に特殊記号をうっかり使用してしまう危険も回避できます。

たとえば、-processbif オプションでは「!*」が必ず使用されますので、同オプションを使用するタスクもまた-cmdfileオプションを必要とします。

コマンドライン オプションのリファレンス

以下の節では、Verity Spider V3.7 のオプションについて説明します。 オプション名では、大文字と小文字が区別されます。

-start

インデックス作成ジョブの開始点 複数のインスタンスを指定できます。または 1 つのインスタンス中で複数の値を使用することもできます。

コマンドラインからインデックス作成ジョブを実行し、コマンド ファイル(-cmdfile)を使用しない場合は、開始点にあるすべての特殊文字について URL エスケープ処理を行ってください。 特殊文字を URL エスケープ処理するには、「%hex-ASCII-character-number」を該当部分に使用してください。 たとえば、「/time&/」の場合は「/time%26/」となります。 これにより、オペレーティング システムにおいて、コマンドの文字列が正しく処理されます。

インデックス作成タスクが途中で停止しても、そのまま再開することができます。 特定のコレクションに関する固定記憶が読み込まれ、候補となる URL のみがキューに入れられます。未処理のものは解析されます。 候補となる URL は、vsdb のレポートにおいて以下のステータスにあるものです。

cand, used, inse, upda, dele, fail

.
レポジトリ タイプ
開始点
Web
Verity Spider がインデックス作成を開始する URL (複数の場合あり)。 Verity Spider が開始点からどの範囲まで処理するかを設定するには、-jumps などの他のオプションを使用します。
ファイル
Verity Spider でインデックス作成が開始されるディレクトリ (複数の場合あり)。 -pathlen を用いるか、包含あるいは除外条件を使用しない限り、開始点以下にあるすべてのサブディレクトリについてインデックスが作成されます。


メモ

-start コマンドを -refresh コマンドと共に使用して Verity Spider の開始点を指定できま すので、-host-domain, -nofollow-unlimited のいずれのコマンドも使用する必要は ありません。


-refresh

コレクションを更新する際に使用します。以下の条件を満たすドキュメントのみが処理されるように設定します。

既存のインデックス作成ジョブを再開すると、コレクションは自動的に更新されます。 ただし、開始点を追加または削除する場合には、マニュアル操作で -refresh を指定して既存のドキュメントを更新する必要があります。


メモ

-start コマンドによって、Verity Spider の開始点を指定することもできます。 -start コ マンドを使用しない場合、-host、-domain、-nofollow のいずれかのコマンドを使用 する必要があります。 さらに詳細な指定をするには、-refreshtime の項目を参照してく ださい。 制約条件を使用しない場合、Verity Spider が制限なく実行され、必要以上のイ ンデックス作成を行ってしまうことになります。