処理オプション

-abspath

タイプ: ファイル システムのみ

ファイルの絶対パスを作成します。 ドキュメントの場所に今後変更がなく、コレクションの場所が変更される可能性がある場合、このオプションを使用します。

ファイル システムを介して Web サーバの内容のインデックス作成をする場合、-prefixmap-abspathと共に使用して、URL への絶対ファイル パスをマッピングしてください。

-prefixmap も参照してください。

-detectdupfile

タイプ: ファイル システムのみ

チェックサムに基づいた、ファイル システムのインデックス作成中の重複検出を設定します。

既定の設定では、ドキュメントのチェックサムはインデックス作成済みファイル上で計算されません。 -detectdupfile を使用すると、CRC-32 アルゴリズムに基づいてチェックサムが計算されます。 チェックサムとドキュメントのサイズから、そのドキュメントが重複であるか否かが判断されます。

-indexers

構文: -indexers num_indexers

1 つのコレクションを実行する際のインデックス作成スレッドの最大数を指定します。

既定値は 2 です。-indexers についてこの数値を増やすと、CPU のエンハンスととメモリの増加が必要となりますのでご注意ください。

-maxindmem も参照してください。

-license

構文 -license path_and_filename

使用するライセンス ファイルを指定します。 既定では以下のディレクトリ内の ind.lic が設定されています。

verity/prdname/platform/admin

このとき、verity/prdname はインストール ディレクトリのユーザ定義可能な部分にあり、プラットフォームは platform directory を表しているものとします。

-maxindmem

構文: -maxindmem kilobytes

各インデックス作成スレッドで使用されるメモリの最大容量をキロバイトで指定します。 スレッド数は -indexers で指定されます

既定では、各インデックス作成スレッドはシステム内で使用可能な最大限のメモリ容量となっています。

-maxnumdoc

構文: -maxnumdoc num_docs

インデックスを作成する際にダウンロード、または送信されるドキュメントの最大数を指定します。 num_docs の値は、インデックス作成済みのドキュメントの数と一致するとは限りません。 以下の要素は実際の数に影響します。

num_docs の値が、-submitsize によって指定されたドキュメントのブロック内に収まるか否か。 収まる場合、そのドキュメント ブロック全体を処理しなければなりません。

呼び出されたドキュメントが、無効であるまたは破損しているためにインデックス作成されているか否か。

-mimemap

構文: -mimemap path_and_filename

ファイルの MIME タイプへの拡張をマッピングするコントロール ファイル(簡単な ASCII テキスト)を指定します。 これによって関連付けをカスタマイズし、既定値より優先させることができます。

コントロール ファイルのフォーマットは以下のとおりです。

#file_ext_no_dot                      mime-type
abc                       application/word

-nocache

タイプ: Web クローリングのみ

このオプションを、-noindex または -nosubmit と共に用いることにより、Web サイトのインデックス作成中にファイルがキャッシュへ格納されないよう指定することができます。 これによって、ディスクの空きを効率的に利用できます。

Verity Spider では通常 URL がダウンロードされ、それらは一括挿入ファイルに書き換えられて自身でドキュメントをダウンロードします。 インデックス作成の際、-submitsizeまで到達すると、キャッシュに格納されたファイルのインデックスが作成され、それらのファイルが削除されます。 -noindex を使用すると、一括挿入ファイルは送信されますが、Verity Spider では処理されません。したがってインデックス作成処理が開始されるまでドキュメントは削除されません。 これは通常 mkvdk または collsvc ですが、後で -processbif オプションを再度使用することもできます。

-nocache -noindex または -nosubmit と共用することにより、ローカルでのファイル保存を避けることができます。 ファイルは実際にインデックスが作成されるときにダウンロードされます。

-noindex も参照してください。

-nodupdetect

タイプ: Web クローリングのみ

Web サイトのインデックス作成時に行うチェックサムに基づいた重複の検出機能を無効にします。 ただし、URL に基づいた重複の検出は行われます。

既定では、CRC-32 アルゴリズムに基づいてチェックサムが計算されます。 チェックサムとドキュメントのサイズから、そのドキュメントが重複であるか否かが判断されます。

-followdup も参照してください。

-noindex

Verity Spider によってドキュメントの場所情報をインデックスを作成しないで収集するよう指定できます。 ドキュメントの場所情報は一括挿入ファイル(BIF)に格納され、それからコレクションへ再送信されます。 このオプションは通常、mkvdk やコレクション供給プログラム(collsvc)などの独立したインデックス作成処理に関連して使用されます。 BIF は、Verity Spider で、mkvdkで、コレクション供給プログラム(collsvc)のいずれであるかにかかわらず、当該コレクションについてのインデックス作成が次回実行されたときに処理されます。

Verity Spider の処理と他の処理を同時に開始しないでください。 次のインデックス作成処理に移行する前に、Verity Spider が必要な処理を行えるよう、十分な時間を空けてください。 mkvdk を使用している場合、必ず Verity Spider によって生成されたデータに基づいて動作させるために、固定記憶モードで実行することができます。


メモ

1 つのコレクションのインデックス作成ジョブを実行するために -noindex を使用する と、当該コレクションの固定記憶が更新されません。


-nocache および -nosubmit も参照してください。

mkvdk の使用の詳細は、Chapter 9, "mkvdk ユーティリティを使用した Verity コレクションの管理"を参照してください。

-nosubmit

Verity Spider によってドキュメントの位置データをインデックスを作成しないで収集するよう指定できます。 ドキュメントの場所情報は一括挿入ファイル(BIF)に格納され、コレクションへは再送信されません。 このオプションは通常、mkvdk やコレクション供給プログラム(collsvc)などの独立したインデックス作成処理に関連して使用されます。 また、Verity Spider の-processbif オプションを再度使用することもできます。 Verity Spider 以外のインデックス作成処理では、BIFのための名前とパスがコレクションに記録されていないため、指定する必要があります。

-persist

構文: -persist num_seconds

Verity Spider を固定記憶モードで実行します。処理が終了するまでの間、num_seconds 秒ごとに更新状況がチェックされます。

固定記憶モードで実行されている間、最適化は一切行われません。 したがって、固定記憶モードを終了したらコレクションの最適化を行う必要があります。 mkvdk の使用の詳細は、Chapter 9, "mkvdk ユーティリティを使用した Verity コレクションの管理"を参照してください。


メモ

Verity Spider では、固定記憶モードにおいて 1 つの処理しか実行できません。 Verity Spider ではリソースを集中的に使用しますので、固定記憶モードでの処理と処理の間 隔を最低 1 日としてください。 12 時間以上の間隔を空けるには、何らかのスケジュー ル機能を使用する必要があります。 例として UNIX の クローン ジョブ、および Windows NT サーバの AT コマンドなどが上げられます。


-preferred

構文: -preferred exp_1 [exp_n] ...

タイプ: Web クローリングのみ

ドキュメントを取り出して表示する場合に必要なホストまたはドメインのリストを指定します。 ワイルドカードの表現と同様に、文字列にはアスタリスク (*) 、 1 文字には疑問符 (?) を使用できます。 正規表現を使用するには、-regexp オプションも指定してください。 このオプションは、重複の検出を有効にしたまま -nodupdetect を指定しない場合に使用します。

インデックスを作成する際、最初に必要ではないホストにあたる可能性があります。 このような場合、ドキュメントは解析、追跡され、候補として保存されます。 別の必要なサーバで重複が検出された場合、必要でないサーバの重複ドキュメントがスキップされます。 ドキュメントの表示が要求されると、必要なほうのサーバから呼び出されます。

Windows NT では、アスタリスク (*) などの特殊記号を保護するために引数を二重引用符で囲みます。 UNIX では、単一引用符を用います。 ただし、これらの規則はコマンドラインからインデックス作成ジョブを実行する場合のみに必要とされるものです。 引用符はコマンド ファイル(-cmdfile)内では必要ありません。

-regexpも参照してください。

-prefixmap

構文: -prefixmap path_and_filename

タイプ: ファイル システムのみ

ファイル システムを Web エイリアスへマッピングするコントロール ファイル(簡単な ASCII テキスト)を指定します。

このオプションは通常、-abspath と共に、Web でファイル システム パスにあたる URL フィールドを作成する際に使用されます。 ファイル システムのインデックス作成は、ネットワーク上の Web クローリングよりも高速です。 ファイル システム パスを Web URL を置き換えるために -prefixmap を使用する場合、 HTML ページの中の関連するハイパーリンクは、Information Server を介して変更されずに表示させることができます。

コントロール ファイルの形式は以下のとおりです。

src_field src_prefix dest_field dest_prefix

円 (¥)記号使用するときに正しくエスケープ処理するためには、円 (¥) 記号を 2 個続けて入力する必要があります。 たとえば、次のとおりです。

C:¥¥test¥¥docs¥¥path

たとえば、ファイル パス/usr/pub/docshttp://web/verityへマッピングするには、以下を使用します。

vdkvgwkey /usr/pub URL http://web/verity

-abspath も参照してください。

-processbif

構文: -processbif 'command_string !*'

特殊記号を使用しているため、すなわち一括挿入ファイル(BIF)を表示しているため、-cmdfileオプションを使用して Verity Spider をコマンド ファイルから実行してください。

プログラム、または Verity Spider によって BIF で生成されるスクリプトを呼び出せるコマンド列を指定します。

たとえば、カスタマイズされた情報を BIF ファイルに追加するためにfix_bifというスクリプトを使用するときは、以下のコマンドを使用します。

vspider -cmdfile filename

このとき filename は、(必要なオプションのうち)以下を含むテキストのみのコマンド ファイルです。

-processbif 'fix_bif !*'

コマンド ファイルはその他のオプションを含む場合があります。

-regexp

既定のワイルドカード表現ではなく正規表現の使用を、-exclude、-indexclude-include, -indinclude、-skip、-indskip, -preferredおよび -nofollow のオプションについて指定します。以下のオプションについて、既定のワイルドカード表現ではなく正規表現の使用を指定します。

ワイルドカードの表現では、文字列にはアスタリスク(*)、 1 文字には疑問符(?)を使用できます。

ワイルドカード表現
適用するテキスト文字列
a*t
although, attitude, audit
file?.htm
files.htm, file1.htm, filer.htm
name?.*
names.txt, name.doc, named.blank, names.ext

正規表現を使用すると、より有効かつ細かな英数字列のマッチングが行えます。 たとえば、「abcd」や「ab11cd」ではなく「ab11」や「ab34」などをマッチングさせるには、以下のように正規表現を使用することができます。

^ab[0-9][0-9]$

正規表現を使用すれば、これよりもさらに詳細な記述も可能です。 正規表現についての詳細な情報については、専門書を参照してください。

-submitsize

構文: -submitsize num_documents

インデックス作成のために一度に送信されるドキュメントの数を指定します。 既定値は 128 です。最大値は 64,000 です。


メモ

値が大きいほどインデクサによる処理が効率的になりますが、値が小さいほどマルチ CPU システムの並列処理が促進されます。 さらに、インデックス作成中に処理が停止 した場合、値が小さいほど損失するドキュメントが少なくてすみます。


インデックス作成中に処理が停止すると、インデックス作成のトランザクションのロールバックがなく、キューにドキュメントが残らないために、-submitsize によって指定されている一連のドキュメントが失われます。 インデックス作成タスクは、URL とキューに入っているドキュメントがなければ処理が再開されないことに注意してください。

-temp

構文: -temp path

テンポラリ ファイル (ディスク キャッシュ)のディレクトリを指定します。 既定では、temp directory が job directory (-jobpath オプションに指定することもできます)に含まれています。

このオプションの値を設定しない場合、/spider/tempdirectory がコレクション内に作成されます。 複数の -collection タスクでは、指定されている最初のコレクションが使用されます。


メモ

指定する場所に、インデックスを作成する前にドキュメントをダウンロードして保存 するために十分なディスクの空きがあることを確認してください。 これらのドキュメン トは、インデックスの作成が完了したらハードディスクから削除されます。


インデックス作成ジョブのすべてのディレクトリおよびファイル(そのうちの1つは temp directory)の場所を指定するには、-jobpathを参照してください。