コンテンツ オプション

-casesen

スパイダリングの際に大文字と小文字の違いによってのみ区別されるキーが、個々に処理されるように、大文字小文字の区別を有効にします。 UNIX サーバのインデックス作成にのみ使用してください。

-exclude

構文: -exclude exp_1 [exp_n] ...

指定された式にマッチするファイル、パス、および URL は対象となりません。 円 (¥)記号使用するときに正しくエスケープ処理するためには、円 (¥) 記号を 2 個続けて入力する必要があります。 たとえば、次のとおりです。

C:¥¥test¥¥docs¥¥path

ワイルドカードの表現と同様に、文字列にはアスタリスク (*) 、 1 文字には疑問符 (?) を使用できます。 たとえば、次のとおりです。

'/my_doc*/year199?'

Windows NT では、アスタリスク (*) などの特殊記号を保護するために引数を二重引用符で囲みます。 UNIX では、単一引用符を用います。 ただし、これらの規則はコマンドラインからインデックス作成ジョブを実行する場合のみに必要とされるものです。 引用符はコマンド ファイル(-cmdfile)内では必要ありません。

通常の表現を使用するには、-regexpオプションも指定してください。

対象としてもインデックスを作成したくないパス、URL、ファイルを指定するには、
-indexclude を使用してください。 ドキュメント タイプについては、代わりに -mimeexclude を使用してください。 たとえば、-exclude *.pdf ではなく -mimeexclude application/pdf を指定します。


メモ

URL を指定する際は、HTML のハイパーリンクと同一の形式で表された完全な絶対パ スを使用してください。 そのリンクが相対リンクである場合、-exclude と共に使用でき るように絶対リンクに変更してください。


-regexp も参照してください。

-include

指定された式にマッチするこれらのファイル、パス、URL のみが対象となります。 円 (¥) 記号を使用するときに正しくエスケープ処理するためには 2 個続けて入力する必要があります。 たとえば、次のとおりです。

C:¥¥test¥¥docs¥¥path

ワイルドカードの表現と同様に、文字列にはアスタリスク (*) 、 1 文字には疑問符(?) を使用できます。 たとえば、次のとおりです。

'/my_doc*/year199?'

Windows NT では、アスタリスク (*) などの特殊記号を保護するために引数を二重引用符で囲みます。 UNIX では、単一引用符を用います。 ただし、これらの規則はコマンドラインからインデックス作成ジョブを実行する場合のみに必要とされるものです。 引用符はコマンド ファイル(-cmdfile)内では必要ありません。

正規表現を使用するには、-regexpオプションも指定してください。

開始点に指定された -include 式が含まれていない場合、インデックスの作成が一切行われませんのでご注意ください。 -include オプションを使用すると、指定された式にマッチしないものはすべて対象外になります。 代わりに -indinclude を使用することができます。 -include では、指定された式にマッチしないものがすべて対象外となりますが、-indinclude ではインデックスを作成しないで式にマッチするものを対象とすることができます。

ドキュメント タイプについては、代わりに -mimeincludeを使用してください。 たとえば、-include *.htmではなく-mimeinclude text/html を指定します。


メモ

URL を指定する際は、HTML のハイパーリンクと同一の形式で表された完全な絶対パ スを使用してください。 リンクが相対リンクである場合は、-include と共に使用できる ように絶対リンクに変更してください。


-regexp も参照してください。

-indexclude

構文: -indexclude exp_1 [exp_n] ...

式にマッチする URL 内のファイルおよびパスのインデックスが作成されないように指定します。 ただし、それらはスパイダリングの対象となっています。 円 (¥) 記号使用するときに正しくエスケープ処理するためには、円 (¥) 記号を 2 個続けて入力する必要があります。 たとえば、次のとおりです。

C:¥¥test¥¥docs¥¥path

ワイルドカードの表現と同様に、文字列にはアスタリスク (*) 、 1 文字には疑問符 (?) を使用できます。 たとえば、次のとおりです。

'/my_doc*/year199?'

Windows NT では、アスタリスク (*) などの特殊記号を保護するために引数を二重引用符で囲みます。 UNIX では、単一引用符を用います。 ただし、これらの規則はコマンドラインからインデックス作成ジョブを実行する場合のみに必要とされるものです。 引用符はコマンド ファイル(-cmdfile)内では必要ありません。

通常の表現を使用するには、-regexp オプションも指定してください。

このオプションは、HTML の目次など、他のドキュメントのインデックスを作成するために必要なドキュメントを収集する場合に使用します。

-exclude オプションでは、指定された式にマッチするものが一切対象となりませんが、-indexclude ではマッチするものがスキップされるだけとなります。

ドキュメント タイプについては、代わりに -mimeexclude を使用してください。


メモ

URL を指定する際は、HTML のハイパーリンクと同一の形式で表された完全な絶対パ スを使用してください。 リンクが相対リンクである場合は、-indexclude と共に使用で きるように絶対リンクに変更してください。


-regexp も参照してください。

-indinclude

構文: -indinclude exp_1 [exp_n] ...

式にマッチする URL 内のファイルおよびパスだけがスパイダリング対象となり、インデックスが作成されるように指定します。 円 (¥) 記号を使用するときに正しくエスケープ処理するためには 2 個続けて入力する必要があります。 たとえば、次のとおりです。

C:¥¥test¥¥docs¥¥path

ワイルドカードの表現と同様に、文字列にはアスタリスク (*) 、 1 文字には疑問符(?) を使用できます。 たとえば、次のとおりです。

'/my_doc*/year199?'

Windows NT では、アスタリスク (*) などの特殊記号を保護するために引数を二重引用符で囲みます。 UNIX では、単一引用符を用います。 ただし、これらの規則はコマンドラインからインデックス作成ジョブを実行する場合のみに必要とされるものです。 引用符はコマンド ファイル(-cmdfile)内では必要ありません。

通常の表現を使用するには、-regexp オプションも指定してください。

-include オプションでは、指定された式にマッチしないものは一切対象となりませんが、-indinclude では指定された式にマッチするもののインデックス作成だけが行われます。

http://web.verity.com の URL 中にある「search」を含むすべてのドキュメントのインデックスを作成したい場合、以下を使用できません。

vspider -collection collname -start http://web.verity.com 
  -include '*search*'

これは、開始点が -include 条件にマッチしないためです。 すべてのドキュメントをスパイダリングの対象とし(すなわち、-exclude オプションによる指定を行っていない場合に限ります)、ユーザ条件にマッチするドキュメントのみについてインデックスを作成したい場合は、代わりに -indinclude を使用してください。 上記の例の場合、単に -include を -indinclude と入れ替えるだけです。


メモ

URL を指定する際は、HTML のハイパーリンクと同一の形式で表された完全な絶対パ スを使用してください。 リンクが相対リンクである場合は、-indinclude と共に使用で きるように絶対リンクに変更してください。


-regexp も参照してください。

-indmimeexclude

構文: -indmimeexclude mime_1 [mime_n] ...

式にマッチする MIMEタイプだけがスパイダリングの対象となり、かつインデックスは作成しないように指定します。

Windows NT では、アスタリスク (*) などの特殊記号を保護するために引数を二重引用符で囲みます。 UNIX では、単一引用符を用います。 ただし、これらの規則はコマンドラインからインデックス作成ジョブを実行する場合のみに必要とされるものです。 引用符はコマンド ファイル(-cmdfile)内では必要ありません。

このオプションは、HTML の目次など、他のドキュメントのインデックスを作成するために必要なドキュメントを収集する場合に使用します。 一方、-indmimeexclude オプションでは指定されたドキュメントは一切スパイダリングの対象とはなりません。 MIME 変数では、文字列にワイルドカードであるアスタリスク(*)を使用することができます。 たとえば、次のとおりです。

'text/*'

ワイルドカードであるクエスチョンマーク(?)は使用できません。 また、-regexp オプションでは、正規表現を使用することはできません。

-indmimeinclude

構文: -indmimeinclude mime_1 [mime_n] ...

式にマッチする MIME タイプだけがスパイダリングの対象となり、インデックスが作成されるように指定します。

-mimeinclude オプションでは、開始 URL がスパイダリングの対象になっていないと、希望するドキュメントのインデックスが作成できません。 mime 変数では、文字列にワイルドカードであるアスタリスク(*)を使用してください。 たとえば、次のとおりです。

'text/*'

Windows NT では、特殊記号(アスタリスク)を保護するために引数を二重引用符で囲みます。 UNIX では、単一引用符を用います。 ただし、これらの規則はコマンドラインからインデックス作成ジョブを実行する場合のみに必要とされるものです。 引用符はコマンド ファイル(-cmdfile)内では必要ありません。

ワイルドカードである疑問符(?)は使用できません。 また、-regexp オプションでは、正規表現を使用することはできません。

http://web.verity.com のすべての Word ドキュメントのインデックスを作成したい場合は、以下を使用できません。

vspider -collection collname -style style_dir -start 
  http://web.verity.com -mimeinclude 'application/msword'

これは、開始点が -mimeinclude 条件にマッチしないためです。 すべてのドキュメントをスパイダリングの対象とし(すなわち、-exclude オプションによる指定を一切行っていない場合に限ります)、ユーザ条件にマッチするドキュメントのみについてインデックスを作成したい場合は、代わりに -indmimeinclude を使用してください。 上記の例の場合、単に -mimeinclude を -indmimeinclude と入れ替えるだけです。

-indskip

構文: -indskip HTML_tag "exp"

タイプ: Web クローリングのみ

HTML_tag 中で、exp のテキストを含む HTML ドキュメントのリンクがたどられて解析され、ただしインデックスが作成されないように指定します。 複数の HTML_tag および exp の組み合わせについては、 -skip オプションの複数のインスタンスを使用します。

ワイルドカードの表現と同様に、文字列にはアスタリスク (*) 、 1 文字には疑問符 (?) を使用できます。 たとえば、次のとおりです。

'/my_doc*/year199?'

Windows NT では、アスタリスク (*) などの特殊記号を保護するために引数を二重引用符で囲みます。 UNIX では、単一引用符を用います。 ただし、これらの規則はコマンドラインからインデックス作成ジョブを実行する場合のみに必要とされるものです。 引用符はコマンド ファイル(-cmdfile)内では必要ありません。

円 (¥) 記号使用するときに正しくエスケープ処理するためには、円 (¥) 記号を 2 個続けて入力する必要があります。 たとえば、次のとおりです。

C:¥¥test¥¥docs¥¥path

通常の表現を使用するには、-regexp オプションも指定してください。

「personnel」という単語を Title 要素に含む HTML ドキュメントをすべてスキップし、かつ他のドキュメントへリンクのために、それらのドキュメントを解析する場合、以下を使用します。

-indskip title "personnel"

ディレクトリのリスト ページのインデックスを作成せず、かつドキュメントおよび親ディレクトリまでのリンクを除いたパスの解析を行いたい場合、インデックスを作成する Web サーバに応じて以下を使用してください。

Netscape Web servers には、以下を使用してください。

-indskip title "personnel"
-nofollow "*parent directory*"

Microsoft Internet Information Server には、以下を使用してください。

-indskip a "*to parent directory*"
-nofollow "*parent directory*"

-maxdocsize

構文: -maxdocsize integer

インデックスを作成するドキュメントの最大サイズをキロバイト単位で指定します。 -maxdocsize の指定値より大きいドキュメントはすべて無視されます。

既定では、あらゆるサイズのドキュメントのインデックスが作成されるようになっています。

-metafile

構文: -metafile path_and_filename

タイプ: Web クローリングのみ

カスタム META タグを、有効な HTTP のヘッダフィールドへマッピングできます。 円 (¥) 記号使用するときに正しくエスケープ処理するためには、円 (¥) 記号を 2 個続けて入力する必要があります。 たとえば、次のとおりです。

C:¥¥test¥¥docs¥¥path.

すなわち、ドキュメント内でユーザ自身の META タグが使用でき、Web サーバから返されたものと置き換えたり、何も返されなかった場合に挿入することができます。 現時点では、実際値のヘッダ フィールドのみが「Last-Modified」および「Content-Length」となっています。 ただし、将来の機能拡張によってさらなる改善がなされるでしょう。

テキスト ファイル エントリの構文は以下のとおりです。

name Last-Modified y|n

または、

name Content-Length y|n

このときy|nは書き換えフラグで、Yes か No のどちらでも構いません。

-metafile のマッピング ファイルが含まれていることもあります。

Doc_Last_Touched Last-Modified n
Doc_Size Content-Length y

書き換えフラグ Y を使用すると、カスタム META タグの値が、有効なフィールドの値を、どちらの値も存在しかつ異なる場合でも、書き換えます。 これは、有効なフィールドの値が常に送られていても、ユーザのカスタム META タグの値に指定したい場合に役立ちます。

書き換えフラグ N を使用すると、カスタム META タグの値は有効なフィールドの値がサーバによって返されなかった場合にのみ使用されます。 有効なフィールドの値が存在する場合は、それが優先されます。

警告 同一の有効なフィールドにマッピングされたエントリがいくつかある場合、最後のエントリのみが有効となります。

-mimeexclude

構文: -mimeexclude mime_1 [mime_n] ...

スパイダリングの対象とならず、またインデックスも作成されない MIME タイプ を指定します。

Windows NT では、アスタリスク (*) などの特殊記号を保護するために引数を二重引用符で囲みます。 UNIX では、単一引用符を用います。 ただし、これらの規則はコマンドラインからインデックス作成ジョブを実行する場合のみに必要とされるものです。 引用符はコマンド ファイル(-cmdfile)内では必要ありません。

既定では すべての MIME タイプが含まれるようになっています。 ME 変数では、文字列にワイルドカードであるアスタリスク(*)を使用してください。 たとえば、次のとおりです。

'text/*'

ワイルドカードである疑問符(?)は使用できません。 また、-regexpオプションでは、正規表現を使用することはできません。

-indmimeexcludeを使用すると、特定のドキュメントを、他のドキュメント タイプにアクセスするために、インデックスを作成しないでスパイダリングの対象とすることができます。

-mimeinclude

構文: -mimeinclude mime_1 [mime_n] ...

含める MIME タイプを指定します。

Windows NT では、アスタリスク (*) などの特殊記号を保護するために引数を二重引用符で囲みます。 UNIX では、単一引用符を用います。 ただし、これらの規則はコマンドラインからインデックス作成ジョブを実行する場合のみに必要とされるものです。 引用符はコマンド ファイル(-cmdfile)内では必要ありません。

既定では すべての MIME タイプが含まれるようになっています。 MIME 変数では、文字列にワイルドカードであるアスタリスク(*)を使用することができます。 たとえば、次のとおりです。

'text/*'

ワイルドカードである疑問符(?)は使用できません。 また、-regexp オプションでは、正規表現を使用することはできません。

-mindocsize

構文: -mindocsize integer

インデックスを作成するドキュメントの最小サイズをキロバイト単位で指定します。 -mindocsize の指定値より小さいドキュメントはすべて無視されます。

既定では、あらゆるサイズのドキュメントのインデックスが作成されるようになっています。

-skip

構文: -skip HTML_tag "exp"

タイプ: Web クローリングのみ

指定された HTML_tag 中で、exp のテキストを含むすべての HTML ドキュメントのインデックスが作成されないように指定します。 複数の HTML_tag および exp の組み合わせの場合には、 -skip オプションの複数のインスタンスを使用します。

ワイルドカードの表現と同様に、文字列にはアスタリスク (*) 、 1 文字には疑問符 (?) を使用できます。 たとえば、次のとおりです。

'/my_doc*/year199?'

Windows NT では、アスタリスク (*) などの特殊記号を保護するために引数を二重引用符で囲みます。 UNIX では、単一引用符を用います。 ただし、これらの規則はコマンドラインからインデックス作成ジョブを実行する場合のみに必要とされるものです。 引用符はコマンド ファイル(-cmdfile)内では必要ありません。

円 (¥)記号使用するときに正しくエスケープ処理するためには、円 (¥) 記号を 2 個続けて入力する必要があります。 たとえば、次のとおりです。

C:¥¥test¥¥docs¥¥path

通常の表現を使用するには、-regexp オプションも指定してください。

例 1

「personnel」という単語を Title 要素に含む HTML ドキュメントをすべてスキップする場合、以下を使用します。

-skip title "personnel"

例 2

「private」という単語および「internal user」という句を paragraph 要素に含む HTML ドキュメントをすべてスキップする場合、以下を使用します。

-skip title "personnel"
-skip p "*internal use*"

-regexp も参照してください。