ChinaUnix.net
相关文章推荐:

linux nutch10 搜索引擎搭建

由于近来在看关于hadoop的相关内容,顺藤摸瓜就发现了这个nutch,其实这已经是一个很古老的项目了,虽然很早以前就知道lucene了,apache下的子项目,而且国内也出版了关于他们的几本书。在此就不多说了,而想不得不提到的就是lucene、nutch、以及hadoop的创始人---Doug Cutting。Lucene 是一个用 Java 开发的开源高性能全文检索工具包,它不是一个完整的应用程序,而是一套简单易用的 API 。在全世界范围内,已有无数的软件系统,...

by 适兕 - Linux文档专区 - 2008-10-16 21:33:57 阅读(973) 回复(0)

相关讨论

搜索引擎nutch在查询搜索结果时,只有下一页功能。现在实现了分页功能,并把是show all hits删去 1.删去show all hits 修改: int hitsPerSite = 0; // max hits per site 2.分页功能 = hitsPerPage) // more hits to show { %> "> "> ...

by java_mail - Java文档中心 - 2007-10-06 02:38:34 阅读(1094) 回复(0)

下载: 可以去Apache的官方网页 [color="#800080"]http://www.apache.org/dyn/closer.cgi/lucene/nutch/ 下载最新版的nutch,目前最新版是nutch-0.9,65M大小。 解压缩进入bin/就能用 [color="#000000"]安装辅助软件(运行环境): nutch是用java写的一个开源项目,所以要使它正常运行必须安装JDK(也为了能修改nutch),Java 1.4.x以上版本,设置环境变量nutch_JAVA_HOME为java虚拟机的...

by odin2008 - Java文档中心 - 2008-07-23 16:09:40 阅读(2447) 回复(0)

下载: 可以去Apache的官方网页 http://www.apache.org/dyn/closer.cgi/lucene/nutch/ 下载最新版的nutch,目前最新版是nutch-0.9,65M大小。 解压缩进入bin/就能用 安装辅助软件(运行环境): nutch是用java写的一个开源项目,所以要使它正常运行必须安装JDK(也为了能修改nutch),Java 1.4.x以上版本,设置环境变量nutch_JAVA_HOME为java虚拟机的安装目录。 此外,还必须安装Apache's Tomcat 4.x 以上版本。 最后,想得到较...

by java_mail - Java文档中心 - 2007-10-22 16:54:22 阅读(896) 回复(0)

nutch搜索引擎之分布式文件系统 NDFS:在一系列机器上存储庞大的面向流的文件,包含多机的存储冗余和负载均衡。 文件以块为单位存储在NDFS的离散机器上,提供一个传统的input/output流接口用于文件读写。 块的查找以及数据在网络上传输等细节由NDFS自动完成,对用户是透明的。而且NDFS能很好地处理 用于存储的机器序列,能方便地添加和删除一台机器。当某台机器不可用时,NDFS自动的保证文件 的可用性。只要网上的机器序列能提...

by softiger - Java文档中心 - 2007-04-16 10:20:03 阅读(782) 回复(0)

架设自己的搜索引擎nutch安装手记之 nutch 是一个刚刚诞生开放源代码(open-source)的web搜索引擎. 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户. nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, nutch作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖. 现在...

by 人月神话 - Linux文档专区 - 2006-12-05 08:13:03 阅读(810) 回复(0)

nutch 是一个刚刚诞生开放源代码(open-source)的web搜索引擎. 尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户. nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, nutch作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算...

by 白天的影子 - Linux文档专区 - 2006-10-10 20:22:45 阅读(781) 回复(0)

本人的nutch的环境调试遇到了很多难题,各位大侠请看看。 之前nutch的安装一直不成功,出现的错误如下 run java in /usr/Java/jdk 060319 220333 parsing file:/usr/local/nutch/conf/nutch-default.xml 060319 220333 parsing file:/usr/local/nutch/conf/crawl-tool.xml 060319 220333 parsing file:/usr/local/nutch/conf/nutch-site.xml 060319 220333 No FS indicated, using default:local 060319 220333 crawl started in: c...

by LinuxWalker - 服务器架设 - 2006-04-18 13:47:25 阅读(1220) 回复(0)

本人的nutch的环境调试遇到了很多难题,各位大侠请看看。 之前nutch的安装一直不成功,出现的错误如下 run java in /usr/Java/jdk 060319 220333 parsing file:/usr/local/nutch/conf/nutch-default.xml 060319 220333 parsing file:/usr/local/nutch/conf/crawl-tool.xml 060319 220333 parsing file:/usr/local/nutch/conf/nutch-site.xml 060319 220333 No FS indicated, using default:local 060319 220333 crawl started in: c...

by LinuxWalker - 服务器应用 - 2006-04-18 13:47:25 阅读(1173) 回复(0)

Google已提代了Windows的桌面搜索,大家一定会问linux桌面有没有类似的服务,答案其实就在Beagle身上,Beagle可以为linux桌面提供文档、音乐、信息及相片的搜索服务。 Beagle支持的格式: Microsoft文件:doc、xls、ppt OpenOffice文件:sxw、sxc、sxi、odt、odp及更多 一般文件:rtf、txt、abw Portable document Format:PDF 帮助文件:Texinfo、Man pages、Docbook、Monodox、Windows help files 网页:xhtml、html、htm 图片:jp...

by songbei6 - Linux文档专区 - 2008-08-01 09:16:06 阅读(1009) 回复(0)

www.google.com/codesearch google源代码搜索 www.koders.com/ koders源代码搜索 directory.fsf.org/GNU/ gnu软件列表 minnie.tuhs.org/UnixTree/V7/usr/src/cmd unix源代码 本文来自ChinaUnix博客,如果查看原文请点:http://blog.chinaunix.net/u1/34676/showart_267140.html

by 感觉模样 - Linux文档专区 - 2007-03-29 08:10:43 阅读(684) 回复(0)