ネットワーク オプション

-agentname

構文: -agentname string

タイプ: Web クローリングのみ

HTTP 要求の一部であるエージェント名のフィールドの値を指定します。 Web サーバは同一ページの異なるバージョンを返すように設定されていますので、-agentname を使用してブラウザ クライアントとして偽装することができます。

エージェント名にスペースが含まれている場合は、二重引用符を用いてください。 スラッシュや円 (¥) 記号などの禁止された文字をエージェント名に使用したい場合は、-cmdfile を使用してください。

-connections

構文: -connections num_connections

インデックス作成のために Web サイトに同時に接続されるソケットの最大数を指定します。 個々の接続は、1 つのスレッドを表します。

既定値は 6 です。


メモ

Verity Spider のダイナミック フロー コントロールによって、Web サイトのインデック ス作成のために可能な限りの接続性が最大限に活かされます。 複数のサイトのインデッ クスを作成するときは、この値を大きくします。 接続の数を増やしても、ネットワーク 接続とリモート ホストの能力の依存性などの理由によって、効果が変わらない場合が あります。


-delay

構文: -delay num_milliseconds

タイプ: Web クローリングのみ

HTTP 要求の間隔の最小時間をミリ秒単位で指定します。 既定値は遅延なしで 0 ミリ秒です。

-header

構文: -header string

タイプ: Web クローリングのみ

スパイダリング要求に追加する HTTP のヘッダを指定します。 たとえば、次のとおりです。

-header "Referer: http://www.verity.com

既定では、あらかじめ定義されたヘッダ(Accept、User-Agent など)が選択され送信されます。 サイトのインデックス作成を正しく行うために、特殊なヘッダが必要となる場合があります。

たとえば、Verity Spider の旧バージョンでは、Virtual Host のインデックス作成において「Host」というヘッダがサポートされていませんでした。 また、ユーザ名とパスワードをプロキシ サーバに渡す際に「Proxy-authentication」というヘッダが必要とされていました。

Verity Spider V3.7 では、ヘッダー「Host」があらかじめサポートされており、プロキシ サーバの認証には -proxyauth オプションを使用できます。 したがって、-headerオプションは、旧バージョンとの互換性を保ち、将来の機能拡張に備えるためにだけ維持されます。


メモ

このオプションの誤用は、エラーの原因となります。 その場合は、-header 値を修正し てインデックス作成タスクを再開してください。


-hostcache

構文: -hostcache num_hostnames

DNS ルックアップを防止するために、キャッシュするホスト名の数を指定します。 このオプションを使用しないと、ホストのキャッシュが増加しつづけます。

既定値は 256 です。

-noflowctrl

タイプ: Web クローリングのみ

ネットワーク フロー コントロールによって、Web サイトのラウンド ロビンのインデックス作成を無効にします。

既定では、Web サーバを圧倒することなく、インデックス作成のパフォーマンスを向上させるために、Web サイトのラウンド ロビンのインデックスを作成します。 各 Web サーバは、-connections の値に従ってラウンド ロビン方式でアクセスされます。 これにより、1 つ 1 つの URL が各 Web サーバから順に呼び出されます。


メモ

-noflowctrl を使用すると、パフォーマンスが大幅に低下する場合があります。


-noproxy

構文: -noproxy name_1 [name_n] ...

タイプ: Web クローリングのみ

-proxy と共用して、-noproxy が指定された名前に対応するホストに直接アクセスするように指定します。 既定では、-proxy が指定されると、Verity Spider がまずプロキシ情報に従って各ホストにアクセスするように設定されています。 パフォーマンスを向上させるために、プロキシ ホストなしでアクセスできることがわかっているホストには -nonproxy を使用してください。 名前変数では、テキスト文字列にワイルドカードであるアスタリスク(*)を使用してください。 たとえば、次のとおりです。

'*.verity.com'

ワイルドカードである疑問符(?)は使用できません。 また、-regexp オプションでは、正規表現を使用することはできません。

Windows NT では、特殊記号(アスタリスク)を保護するために引数を二重引用符で囲みます。 UNIX では、単一引用符を用います。 ただし、これらの規則はコマンドラインからインデックス作成ジョブを実行する場合のみに必要とされるものです。 引用符はコマンド ファイル(-cmdfile)内では必要ありません。


メモ

このオプションの使用には、有効な Verity Spider のライセンス機能が必要です。


-proxy

構文: -proxy proxyhost:port

タイプ: Web クローリングのみ

プロキシ サーバのホストとポートを指定します。

このオプションの使用には、有効な Verity Spider のライセンス機能が必要です。

認証を必要とするプロキシ サーバについては-proxyauthを、プロキシ サーバを介さなくてもアクセスできるホストには-noproxyも参照してください。

-proxyauth

構文: -proxyauth login:password

タイプ: Web クローリングのみ

ファイアウォールの外へ出るために承認が必要なプロキシ サーバへの接続に関するログイン情報を指定します。 -proxy と共に使います。


メモ

このオプションの使用には、有効な Verity Spider のライセンス機能が必要です。 Information Server V3.7 では、セキュリティ保護されたプロキシ サーバからのドキュ メントの呼び出しはサポートされていません。 Information Server V3.7 によって表示可 能なドキュメントのインデックス作成に、-proxyauth オプションを使用しないでくだ さい。


-retry

構文: -retry num_retries

タイプ: Web クローリングのみ

Verity Spider が URL にアクセスを試みる回数を指定します。 不安定なネットワーク接続によって誤って拒絶される可能性がある場合、-retryを使用します。

既定値は 4 です。

-timeout

構文: -timeout num_seconds

タイプ: Web クローリングのみ

Verity Spider がネットワークへの接続時、またデータへのアクセス時にタイムアウトするまでに待機する時間を、秒単位で指定します。 データ アクセス値は自動的に、ネットワーク接続のタイムアウトに設定された時間の倍の長さとなります。

ネットワーク接続のタイムアウトまでの既定値は、30 秒です。したがって、データ アクセスのタイムアウトまでの既定値は 60 秒となります。