パスおよび URL オプション

-auth

構文: -auth path_and_filename

保護されたパスについて認証をサポートする承認ファイルを指定します。


メモ

Information Server のコンフィギュレーション ファイルである inetsrch.ini の中には、 ドキュメントにアクセスして表示させるために、一致する「Authfile=」エントリが必 ずなければなりません。 -authAuthfile=は、同じファイルを指示していなければな りません。


-cgiok

タイプ: Web クローリングのみ

疑問符を含む URL のインデックス作成を可能にします。 通常、これによって URL をたどって CGI などの処理プログラムへ到達できます。

Web サーバによって生成され、返されたドキュメントについて、ドキュメントのリンクのためにインデックスの作成および解析が行われ、そのリンクが追跡されて、順にインデックスの作成、解析が行われます。 しかし、Web サーバがページを返さない場合は、おそらく、ページの生成を処理するためのパラメータが URL で欠損していると思われ、その場合は何も起こりません。 インデックスを作成し、解析するページがありません。

以下は、パラメータのない URL です。

http://server.com/cgi-bin/program?

インデックスを作成する URL に、-start オプションの指定に従ってパラメータを含める場合、それらのパラメータは処理対象となり、インデックスの作成と解析が行われます。

既定では、疑問符の入った URL はスキップされます。

-domain

構文: -domain name_1 [name_n] ...

タイプ: Web クローリングのみ

インデックス作成を指定されたドメインのみに制限します。 ドメインには、完全なテキスト文字列のみを使用してください。 ワイルドカード表現は使用できません。 指定されたドメインにない URL は、ダウンロードも解析も行われません。

複数のドメインを、それぞれをスペースで区切ることによってリストできます。


メモ

このオプションの使用には、適切な Verity Spider のライセンス機能が必要です。


-followdup

重複したドキュメントについて、最初のインスタンスのみのインデックスを作成するだけでも、そのドキュメント内のリンクがたどられるように指定します。

このオプションは、複数のサイトで同一のホームページが使用されている場合に有効です。 既定では、ドキュメントの最初のインスタントのみのインデックスが作成され、後続のインスタンスはスキップされるようになっています。 異なるサイトにおいて、2 番目のドキュメントが異なっている場合、-followdup によって、共通のホームページのインデックスは一度だけ作成し、2 番目のドキュメントにアクセスしてインデックスを作成することができます。

-followsymlink

タイプ: ファイル システムのみ

UNIX のファイル システムのインデックスを作成する際、シンボリック リンクが追跡されるように指定できます。

-host

構文: -host name_1 [name_n] ...

タイプ: Web クローリングのみ

指定されたホストについてのみインデックスが作成されるよう制限します。 ホストには、完全なテキスト文字列のみを使用してください。 ワイルドカード表現は使用できません。

複数のホストを、それぞれをスペースで区切ることによってリストできます。 指定されたホストにない URL は、ダウンロードも解析も行われません。

-https

タイプ: Web クローリングのみ

SSL が可能な Web サイトのインデックスが作成されるよう指定します。


メモ

-https を使用するには、Verity SSL Option Pack がインストールされていなければなり ません。 Verity SSL Option Pack は、Verity Spider の別売りアドオンで、Verity の販売 元から入手できます。


-jumps

構文: -jumps num_jumps

タイプ: Web クローリングのみ

開始 URL からどの深さまでインデックスを作成するか、深さの最大レベルを指定します。 0 から 256 までの値で指定します。

既定値は 0 です。 コレクション内に予想を超えた多さのドキュメントがある場合、このオプションをコンテンツ オプションとあわせて使用し、コレクションをスリム化する必要があります。

-nodocrobo

ROBOT META タグ ディレクティブを無視するように指定します。

HTML 3.0 以前のバージョンでは、ロボット ディレクティブは Web サイトのルート ディレクトリ以下では file robots.txt としてのみ表されていました。 HTML 4.0 では、各ドキュメントに META フィールドに埋め込まれたロボットディレクティブを含めることができます。 このオプションは、それらを無視するように指定できます。 もちろん、任意で使用されなければなりません。

-norobohttp://www.w3c.org/TR/REC-html40/html40.txt も参照してください。

-nofollow

構文: -nofollow "exp"

タイプ: Web クローリングのみ

表現 exp にマッチする URL が一切追跡されないように指定します。 -nofollow についてexp 値を指定しない場合、ドキュメントが追跡されない「*」に設定されているものと認識されます

ワイルドカードの表現と同様に、文字列にはアスタリスク (*) 、 1 文字には疑問符 (?) を使用できます。 exp 値は、正しく解釈されるように二重引用符でカプセル化してください。

円 (¥)記号使用するときに正しくエスケープ処理するためには、円 (¥) 記号を 2 個続けて入力する必要があります。 たとえば、次のとおりです。

C:¥¥test¥¥docs¥¥path

正規表現を使用するには、-regexpオプションも指定してください。

Verity Spider の旧バージョンでは、式が使用できませんでした。 つまり、各開始点 URL では最初のドキュメントについてのみインデックスが作成されていました。 式機能の追加によって、スキップする URL をドキュメント内でも選択できるようになりました。

-regexp も参照してください。

-norobo

タイプ: Web クローリングのみ

検出される robots.txt ファイルがすべて無視されるように指定します。 robots.txtファイルは、多くのWeb サイトにおいて、サイト中でインデクサーが無視するべき部分を指定するために使用されています。 既定では、robots.txt ファイルをすべて遵守するようになっています。

1 つのサイトについて再度インデックスを作成する際、robots.txtが変更されている場合は、robots.txt によって新たに禁止されたドキュメントが削除されます。

このオプションは、十分な注意によって任意で使用してください。-cgiokと共に用いる場合は特に注意してください。

-nodocrobohttp://info.webcrawler.com/mak/projects/robots/norobots.htmlも参照してください。

-pathlen

構文: -pathlen num_pathsegments

URL またはファイル システム パスおいて、インデックスを作成するパス セグメントの数を限定します。 パスの長さは以下のように決定します。

ホスト名およびドライブ文字は含まれません。 たとえば、http://www.spider.com:80/ も C:¥ もパスの長さを決定する際に含まれません。

ホスト名に続く要素はすべて含まれます。

実際のファイル名があれば、それも含まれます。 たとえば、/world.html はパスの長さを決定する際に含まれます。

ホストと実際のファイル名の間にあるディレクトリ パスは、すべて含まれます。

以下の URL では、パスの長さは 4 となります。

http://www.spider:80/comics/fun/funny/world.html
                                   <-1-> <2><-3-><---4--->

以下の ファイル システム パス では、パスの長さは 3 となります。

C:¥files¥docs¥datasheets
<-1->  <-2->  <---3--->

既定値は 100 パス セグメントです。

-refreshtime

構文: -refreshtime timeunits

timeunits 値が開始されてからインデックスが作成されたドキュメントが更新されないように指定します。

timeunits の構文は次のとおりです。

n day n hour n min n sec

このとき、n は正の整数とします。 スペースを必ず使用してください。また各時間単位の最初の 3 文字が解析されるため、単数形と複数形のどちらでも使用できます。

たとえば以下のように指定するとします。

-refreshtime 1 day 6 hours

少なくとも 30 時間 と 1 秒前に最後にインデックスが作成されたドキュメントは、更新されます。


メモ

このオプションは -refresh オプションと併用されている場合にのみ有効です。 vsdb - recreate を使用する場合、最後にインデックスが作成された日付がクリアされます。


-reparse

タイプ: Web クローリングのみ

コレクション内に既にあるすべての HTML ドキュメントが解析されるように指定します。 -reparseを使用する場合は、開始点を-startオプションによって指定する必要があります。

以前包含・除外条件に従ってスキップしたパスおよびドキュメントを含める場合は -reparse を使用することができます。 条件を必ず変更してください。そうしないと Verity Spider によって行える処理が非常に限られます。このことは、-cmdfile を使用する際に見落としがちです。

-unlimited

-host-domainも指定されていない場合、いかなる処理にも制限が加えられないように指定します。 既定では、リストされている開始点のホストに従って制限されるようになっています。

-virtualhost

構文: -virtualhost name_1 [name_n] ...

リストされているホストについてDNS ルックアップが行われないように指定します。 ホストには、完全なテキスト文字列のみを使用してください。 ワイルドカード表現は使用できません。 これにより、複数の Web サーバが同一のホスト上で実行されている際などに、エイリアスにてインデックス作成することができます。 正規表現を使用できます。

通常、ホスト名が解決されるとき、名前を基準名に変換するために DNS ルックアップが使用されますが、基準名は各マシンごとに 1 つづつしか存在できません。 これにより、重複ドキュメントの検出が可能となり、結果の効果が低下しません。 ただし、複数のホストでエイリアスが使用されている場合、重複しているドキュメントが複数のエイリアスによって参照されてしまい、異なるエイリアスの名前によって個々のドキュメントとして扱われます。

同一のホスト上で、marketing.verity.com と sales.verity.com の双方を実行させることができます。 各エイリアスは、index.htm のような同一のドキュメント名がそれぞれに発生するとしても、異なるドキュメント ルートを持っています。 -virtualhostによって、どちらのサーバのエイリアスも、異なるサイトとしてインデックスを作成することができます。 -virtualhost を使用しないと、同一のホスト名として解決され、重複するドキュメントのうち最初に検出されるものだけについてインデックスが作成されます。

警告 Netscape Enterprise Server を使用している場合、ホスト名のみを仮想ホストとして指定すると、仮想ホストのサイトのインデックスが作成されません。 これは、ドメイン名が常にドキュメント キーに追加されるためです。