DocSearcher

DocSearcher:文档文件内容搜索工具

之前软言软语曾介绍过几款文件内容搜索工具,请参看 “批量搜索与替换的开源软件:grepWin & RegexSearch” & “FileSeek:文件内容搜索软件”。但这几款软件基本上都不支持诸如 Word 文件之类的文档文件内容的搜索,算是比较遗憾的地方。而 DocSearcher 则是一款专门用来搜索文档文件内容的便利工具,基于开源的 LucenePOI Apache APIsPDF Box API

软件名称DocSearcher
授权 / 价格开源软件 / 免费
系统平台所有
运行环境所有
网址官方网站

DocSearcher 是一款专门搜索文档文件的工具,由于采用开源的 LucenePOI Apache APIs 以及 PDF Box API,因此能够搜索 HTML,MS Word,MS Excel,RTF,PDF,OpenOffice(及 Star Office) 文档以及文本文档内容的能力。 其他文件格式目前则不支持,也许随着内置搜索引擎的改进,更多的格式将会包含其中。

使用说明

可以以关键词(keywords)或短语(phrases)来构建你的搜索,点击 “search” 即可获得搜索结果。

搜索结果将会显示在一个表格中,单击结果中的文件可以在标准网页浏览器中打开。
想要返回搜索结果,只需要单击搜索结果图标 ()。

DocSearcher 内置 4 种搜索方式,包括:关键词(Keyword),短语(Phrase),逻辑( Boolean),以及通配符(Wild Card)。以下为各个搜索方式的举例:

搜索示例搜索类型搜索说明
电子证券 交易处理关键词(keywords)搜索搜索含有 “电子证券” 或 “交易处理” 的文档。
电子证券 交易处理短语(phrase)搜索搜索含有 “电子证券 交易处理”短语的文档,及 “电子证券” 与 “交易处理”作为整体是连续在一起出现的,当然中间有空格。
"电子证券" - "交易处理"逻辑(boolean)搜索包含 “电子证券” 但不包含 “交易处理” 的文档。
电子*通配符(wild card)搜索所有以电子开头的词,例如电子文档,电子交易等。
(注:似乎对中文支持不是很理想)

使用步骤

1. 首先确认你的系统已经安装了 JRE。

2. 运行 DocSearch.jar 后即可启动,界面如下。

3. 在搜索之前,首先要建立索引。打开菜单 “Index -> Create new index”。

如图所示,首先在最上面文本框中输入该索引的名称(此处不建议使用中文,经软言软语测试,此处若使用中文第一次使用无问题,当重启程序后变成无法识别的问号了),然后在下面选择你要索引的目录,该目录即包含你要搜索的文档文件。然后在下面 “Search Depth” 中选择你要索引的目录深度,0 表示不索引子目录。“Searched by default” 默认为选择,表示搜索时使用该索引。

另外,你还可以配置 “Advanced Options” 选项卡来获得索引 Web Server,CD ROM 的能力,此处不做深入讨论。“Update” 选项卡处可以选择何时更新该索引。“Archiving” 选项卡则可以将你的索引压缩存档,留作备份或者导出。

配置完后,单击 “Add New Index” 开始创建索引。索引结束后,弹出如下窗口显示统计信息。

4. 在主界面的 General options 选项卡中,可以选择搜索的类型(Type of search):关键字(Keywords)或短语(Phrase),搜索范围(Search in)可以为:正文与标题(body and title),标题(title),摘要(summary),正文(body)以及关键词(keywords)。在此处做搜索实验 。

索引目录内容为如下所示:

“ 论文” 文件夹中包含一个二级子文件夹以及一个名为 “第三方支付平台探讨.doc” 的 MS Word 文件。

(1). 在正文与标题中搜索关键字 “电子证券 交易处理”,结果如下:

(2). 在正文中搜索短语 “电子证券 交易处理”,结果如下所示:

从上图可以看到无法以短语形式搜索出 “电子证券 交易处理”。正文内容节选如下:

以上仅为不完全的测试,作为使用方法的入门参考。不过,经过几次使用发现,在部分情况下无法正确搜索出内容,暂未没发现具体原因,可能是对中文支持还不完美。不管怎样,大部分情况下使用效果还不错,如果有兴趣可以尝试一下。相信以后的升级会解决这些问题,带来更好的搜索效果。

228 comments

  1. 确实很徐奥这样的工具呢,以前用的几个都是只能查找纯文本的……word这种rtf格式的基本上都不行

  2. 我在使用了,java的反映速度确实有些慢,在select folder/files的时候,双击一个文件夹会变成改名的状态,经常需要点击两三次。另外,我搜索php文件貌似不成功……

    1. 在第一张图中的 “Filetype and size” 中有文件类型选项。当然只能在其支持的类型中选择,不能设定其他类型。

  3. 试了一下,对英文的pdf也不能完全索引,修改了最大文件限制到25M,深度也设到20,即使多建几个index,还是无法搜索到pdf中的字符串,呵呵。不过还是比Google desktop好用,不会只能搜1000个字。

  4. 我在官网上下载了最新版的,但是为什么缺少DocSearch.jar 文件呢?谁能发一份这个邮件给我,谢谢。

        1. 可以是可以,但没有你的Email地址。
          你可以回复评论是在“邮件 / E-mail”栏留下,不要留在内容中。

  5. 为什么不直接搜索,而要建立索引,不明白。想百度一样,直接搜索不就行吗,不得要领。望老大指教

asnahu进行回复 取消回复

电子邮件地址不会被公开。

此站点使用Akismet来减少垃圾评论。了解我们如何处理您的评论数据