概要

Verity Spiderでは、Web ベースおよびファイル システムのドキュメントのインデックスが企業内全体で作成されます。 Verity Spider では、Verity KeyView ドキュメントのフィルタリング技術が連動しているため、Office2000、WordPerfect、ASCII text、HTML、SGML、XML、PDF (Adobe Acrobat) をはじめとする 200 種以上の一般的アプリケーションのドキュメント形式のインデックスを作成できます。

Web 標準のサポート

Verity Spider では、インターネットおよびイントラネットで現在使用されている、主要な Web 標準がサポートされています。 標準の HREF のリンクおよびフレーム ポインタは、ナビゲーションのサポート対象となるよう認識されます。 ページをたどっていくと、基礎となっている実際のドキュメントのインデックスが作成されます。 Verity Spider ではrobots.txt ファイルで指定されている robots 排除標準を遵守しているため、管理者はリモート Web サイトへ常に簡単にアクセスすることができます。 パスワードで保護されているサイトのインデックスを作成できるように、HTTP 基本認証機能がサポートされています。

他のWeb クローラーとは異なり、Verity Spider ではリモートドキュメントの完全なローカル コピーを維持する必要はありません。 ドキュメントは、Verity Information Server を通して表示されるとき、一部ハイライト表示されながら元の場所から読み込まれます。

再開機能

インデックス作成ジョブが失敗した場合、または何らかの理由で Verity Spider で有効数値または URL のタイプのインデックスが作成できなかった場合でも、その場で処理を再開し、コレクションを更新することができます。 前回インデックスが正常に作成されなかった URL のみが処理されます。

固定記憶域におけるステートの保守

Verity Spider V3.7 では、URL の収集状況およびインデックス作成状況が固定記憶域に格納されるため、停止したジョブを効率よく再開できるよう、進行状況を確認することができます。

Verity Spider の旧バージョンでは、ステート情報はメモリに保持されるだけで、スパイダリング中に処理が停止すると作業内容が失われていました。 また、広範囲にわたるサイトのスパイダリングを行うには、大容量のメモリが必要とされました。 固定記憶域に情報が格納されることにより、インデックス作成されたページ数、閲覧されたページ数、拒否されたページ数、破損リンク数などの情報が報告されます。

パフォーマンス

少ない必要メモリ容量、フロー コントロール、さらにマルチスレッドと効率的なドメイン名システム (DNS) のルックアップによって、スパイダリング機能は旧バージョンと比較して大幅に向上しました。

フロー コントロール

Verity Spider では、Web サイトのインデックスを作成するとき、Web サーバにラウンド マナー方式にて要求を配布します。 つまり、1 つ 1 つの URL が各 Web サーバから順に呼び出されます。 またフロー コントロールによって、Web サイトの閲覧は早くできるものから先に完了していきます。 すべての Web サーバのインデックス作成が最適化されます。

Verity Spider V3.7 では、各サーバの接続数がダウンロードの帯域幅によって調整されます。 Web サーバからのダウンロードの帯域幅が特定の数値に当てはまる場合、そのサーバへの接続数が自動的に減らされます。 ただし、各 Web サーバへの接続は必ず 1 つは確保されます。 ダウンロードの帯域幅が受け入れ可能なレベルまで増加すると、接続が再割り当てされます(-connections オプションの数値、つまり既定値では 4 ごと)。
-noflowctrl オプションを使用してフロー コントロールを無効にすることもできます。

マルチスレッド

Verity Spider のバージョン 3.1 以降では、収集ジョブとインデックス作成ジョブがマルチスレッドに分化され、並行処理が実現されています。 V3.7 では、ドキュメントの呼び出しの際のWeb サーバへの同時接続が可能となり、同時インデックス作成スレッドも実現され、最良の効率化が図られています。 これにより、スループットが全面的に向上しました。 また、旧バージョンでは作業がラウンド ロビン方式で行われており、いかなる場合でもただ 1 つのジョブだけが実行されていました。 spider では、1 つのラウンド ロビン方式内の1 つのインデックス作成ジョブの中で Web サイトが閲覧されます。

効率的な DNS ルックアップ

Verity Spider V3.7 では、DNS ルックアップが大幅に低減され、スパイダリングのスループットが非常に向上しました。 スパイダリングの範囲をドメインごと、またはホストごとに制限すると、その範囲外にあるホストに対する DNS ルックアップは行われません。 これまで、DNS ルックアップは範囲内にあるすべてのURLについて行われました。

プロキシ処理の効率

-noproxy オプションを利用すると、特定のホストに対するプロキシ チェックを低減することができ、またプロキシ サーバ上での認証についての -proxyauth オプションによって、プロキシ サーバやファイアウォールを対象としたインデックス作成ジョブを行う際に非常に柔軟性にとんだ処理ができます。 注意 Information Server V3.7 では、セキュリティ保護されたプロキシ サーバからのドキュメント呼び出しはサポートされていません。 Information Server V3.7 によって表示されるドキュメントのインデックス作成には、-proxyauth オプションを使用しないでください。