Hyper Estraier インストールガイド

いつも分からなくなるので、Hyper Estraierの使い方をまとめる。

ダウンロード・インストール

からWindows用バイナリーを入手して、適当なディレクトリに展開する。

管理用コマンド

estcmdで管理します。

検索対象は、HTML、PDF、Powerpointが中心の文書なので、その辺を考慮します。

カタログ作成

まず、一般的な文書についてカタログを作ります。

estcmd gather -il ja -pc CP932 -lt -1 -lf -1 -sd [catalog] [directory]

Hyper Estraier同梱の estxfilt.bat に記述されているxdoc2txtのオプションに-nを追加(テキストコピーできないPDFを無理やりテキストに変換する*1)します。

xdoc2txt -s -n r=0 -o=0 %1 > %2

その後、MS系のドキュメントやPDFを登録します。

estcmd gather -fx .pdf,.rtf,.doc,.xls,.ppt T@estxfilt -fz -ic CP932 -pc CP932 -sd -cl -cm [catalog] [directory]
  • -clを付けると、上書きされた文書の領域を整理します。
  • -fxは、ファイル名の接尾辞に関連づけた外部コマンドを指定します。カンマ区切りで複数の接尾辞を指定できます。「*」だと全てのファイルに一致します。コマンド名の前に「T@」をつけるとその出力がプレーンテキストとして解析され、「H@」をつけるとHTMLとして解析され、「M@」をつけるとMIMEとして解析され、いずれでもない場合は文書ドラフトとして解析されます。このオプションは複数回指定できます。
  • -fzを付けると、-fxの条件に当てはまらないファイルを無視します。
  • -icは対象文書の文字コードを指定します。デフォルトは自動判定です。
  • -ilは文字コードの判定で優先される言語を指定します。デフォルトは英語です。
  • -ltは、解析するテキストのサイズ制限をキロバイト単位で指定します。デフォルトは128KBです。負数にすると無制限になります。制限を超えた場合、先頭から制限サイズまでのテキストが解析されます。
  • -lfは、読み込むファイルのサイズ制限をメガバイト単位で指定します。デフォルトは32MBです。負数にすると無制限になります。制限を超えた場合、そのファイルは無視されます。
  • -pcはファイルのパスの文字コードを指定します。デフォルトはISO-8859-1です。
  • -sdを付けると、ファイルの更新日時を文書の属性として追加します。
  • -cmを付けると、文書の属性の更新日時がファイルの更新日時より古い場合にのみ登録を行います。
http://hyperestraier.sourceforge.net/uguide-ja.html#estcmd
インデックスの更新

「作成」のコマンドに -cl、-cmをつければOKかな。

estcmd gather -il ja -pc CP932 -lt -1 -lf -1 -sd -cl -cm [catalog] [directory]
estcmd gather -fx .pdf,.rtf,.doc,.xls,.ppt T@estxfilt -fz -ic CP932 -pc CP932 -sd -cl -cm [catalog] [directory]
削除文書の反映
estcmd purge -cl casket
インデックスの最適化
estcmd optimize casket
インデックス情報の確認
estcmd inform casket
インデックスの修復
estcmd repair casket

*1:これってどうなんですかね・・・