之前软言软语曾介绍过几款文件内容搜索工具,请参看 “批量搜索与替换的开源软件:grepWin & RegexSearch” & “FileSeek:文件内容搜索软件”。但这几款软件基本上都不支持诸如 Word 文件之类的文档文件内容的搜索,算是比较遗憾的地方。而 DocSearcher 则是一款专门用来搜索文档文件内容的便利工具,基于开源的 Lucene,POI Apache APIs 及 PDF Box API。
[table id=79/]
DocSearcher 是一款专门搜索文档文件的工具,由于采用开源的 Lucene,POI Apache APIs 以及 PDF Box API,因此能够搜索 HTML,MS Word,MS Excel,RTF,PDF,OpenOffice(及 Star Office) 文档以及文本文档内容的能力。 其他文件格式目前则不支持,也许随着内置搜索引擎的改进,更多的格式将会包含其中。
使用说明
可以以关键词(keywords)或短语(phrases)来构建你的搜索,点击 “search” 即可获得搜索结果。
搜索结果将会显示在一个表格中,单击结果中的文件可以在标准网页浏览器中打开。
想要返回搜索结果,只需要单击搜索结果图标 ()。
DocSearcher 内置 4 种搜索方式,包括:关键词(Keyword),短语(Phrase),逻辑( Boolean),以及通配符(Wild Card)。以下为各个搜索方式的举例:
[table id=80 /]
使用步骤
1. 首先确认你的系统已经安装了 JRE。
2. 运行 DocSearch.jar 后即可启动,界面如下。
3. 在搜索之前,首先要建立索引。打开菜单 “Index -> Create new index”。
如图所示,首先在最上面文本框中输入该索引的名称(此处不建议使用中文,经软言软语测试,此处若使用中文第一次使用无问题,当重启程序后变成无法识别的问号了),然后在下面选择你要索引的目录,该目录即包含你要搜索的文档文件。然后在下面 “Search Depth” 中选择你要索引的目录深度,0 表示不索引子目录。“Searched by default” 默认为选择,表示搜索时使用该索引。
另外,你还可以配置 “Advanced Options” 选项卡来获得索引 Web Server,CD ROM 的能力,此处不做深入讨论。“Update” 选项卡处可以选择何时更新该索引。“Archiving” 选项卡则可以将你的索引压缩存档,留作备份或者导出。
配置完后,单击 “Add New Index” 开始创建索引。索引结束后,弹出如下窗口显示统计信息。
4. 在主界面的 General options 选项卡中,可以选择搜索的类型(Type of search):关键字(Keywords)或短语(Phrase),搜索范围(Search in)可以为:正文与标题(body and title),标题(title),摘要(summary),正文(body)以及关键词(keywords)。在此处做搜索实验 。
索引目录内容为如下所示:
“ 论文” 文件夹中包含一个二级子文件夹以及一个名为 “第三方支付平台探讨.doc” 的 MS Word 文件。
(1). 在正文与标题中搜索关键字 “电子证券 交易处理”,结果如下:
(2). 在正文中搜索短语 “电子证券 交易处理”,结果如下所示:
从上图可以看到无法以短语形式搜索出 “电子证券 交易处理”。正文内容节选如下:
以上仅为不完全的测试,作为使用方法的入门参考。不过,经过几次使用发现,在部分情况下无法正确搜索出内容,暂未没发现具体原因,可能是对中文支持还不完美。不管怎样,大部分情况下使用效果还不错,如果有兴趣可以尝试一下。相信以后的升级会解决这些问题,带来更好的搜索效果。
“DocSearcher:文档文件内容搜索工具”上的34条回复
[…] This post was mentioned on Twitter by Bai Hua, 软言软语. 软言软语 said: DocSearcher:文档文件内容搜索工具,可以搜索 MS Word,Excel,PDF,OpenOffice 等文档格式内容。http://goo.gl/ZMHN […]
确实很徐奥这样的工具呢,以前用的几个都是只能查找纯文本的……word这种rtf格式的基本上都不行
这个目前用起来还不错,可以试试。
很实用的软件。
很久不见新文章了啊。
最近没看到太好的东西,也就没有写什么,宁缺勿滥吗:)
推友@jay_lolo前来围观.
很不错的利器.谢谢!!
感谢围观。
这个工具不错,站也很好关注你
谢谢
我在使用了,java的反映速度确实有些慢,在select folder/files的时候,双击一个文件夹会变成改名的状态,经常需要点击两三次。另外,我搜索php文件貌似不成功……
php文件成功了–# 自言自语了,在索引之后搜索速度非常之快啊……
基于索引的搜索方式应该会很快。php文件也是文本格式,搜索上应该不存在问题。
docfetcher比較好用
嗯,搜索了一下,似乎不错。谢谢提示。
DocSearcher这个跟同类产品有什么优势么。
个人觉得主要还是开源,并且采用了一些开源的API,因此搜索功能还是比较强大,同时有多平台版本。
TOTALCOMMANDER中内置的文件搜索功能可以搜索DOC\XLS\PPT中的内容
是啊,不过,搜索后没有高亮预览功能,需要逐一打开来查看。
DocSearch.jar
DocSearch.jar 半天没找到在哪里下载??
在官网下了,,不能自定义目标文件类型呀!?
在第一张图中的 “Filetype and size” 中有文件类型选项。当然只能在其支持的类型中选择,不能设定其他类型。
不错的东西,留着,以备不时之需。
试了一下,对英文的pdf也不能完全索引,修改了最大文件限制到25M,深度也设到20,即使多建几个index,还是无法搜索到pdf中的字符串,呵呵。不过还是比Google desktop好用,不会只能搜1000个字。
我在官网上下载了最新版的,但是为什么缺少DocSearch.jar 文件呢?谁能发一份这个邮件给我,谢谢。
怎么会呢,我下载后的压缩包里有jar文件。你再仔细看看。
是真的啦,版主能不能邮件发给我一份这个文件啊,谢谢。
可以是可以,但没有你的Email地址。
你可以回复评论是在“邮件 / E-mail”栏留下,不要留在内容中。
索引是什么东西
为什么不直接搜索,而要建立索引,不明白。想百度一样,直接搜索不就行吗,不得要领。望老大指教
索引一般是用在数据库里的,主要是为了加快查找速度。一般的搜索网站、软件都会用到索引。
那我应该填什么哪?
索引名随便填,选择你要搜索的文件夹,然后点击”Add New Index”就可以了。