nutch使用(Nutch介绍及使用)
一、如何利用nutch和hadoop爬取网页数据
最终选择的是apache nutch,到目前为止最新的版本是1.3
1. Nutch是什么?
Nutch是一个开源的网页抓取工具,主要用于收集网页数据,然后对其进行分析,建立索引,以提供相应的接口来对其网页数据进行查询的一套工具。其底层使用了Hadoop来做分布式计算与存储,索引使用了Solr分布式索引框架来做,Solr是一个开源的全文索引框架,从Nutch 1.3开始,其集成了这个索引架构
2.在哪里要可以下载到最新的Nutch?
在下面地址中可以下载到最新的Nutch 1.3二进制包和源代码
3.如何配置Nutch?
3.1对下载后的压缩包进行解压,然后cd$HOME/nutch-1.3/runtime/local
3.2配置bin/nutch这个文件的权限,使用chmod+x bin/nutch
3.3配置JAVA_HOME,使用export JAVA_HOME=$PATH
4.抓取前要做什么准备工作?
4.1配置http.agent.name这个属性,在conf目录下
<prename="code"class="html"><property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
二、nutch和lucene的区别
Lucene其实是一个提供全文文本搜索的函数库,它不是一个应用软件。它提供很多API函数让你可以运用到各种实际应用程序中。现在,它已经成为Apache的一个项目并被广泛应用着。
Nutch是一个建立在Lucene核心之上的Web搜索的实现,它是一个真正的应用程序。也就是说,你可以直接下载下来拿过来用。它在Lucene的基础上加了网络爬虫和一些和Web相关的东东。其目的就是想从一个简单的站内索引和搜索推广到全球网络的搜索上,就像Google和Yahoo一样。当然,和那些巨人竞争,你得动一些脑筋,想一些办法。我们已经测试过100M的网页,并且它的设计用在超过1B的网页上应该没有问题。当然,让它运行在一台机器上,搜索一些服务器,也运行的很好。
总的来说,我认为LUCENE会应用在本地服务器的网站内部搜索,而Nutch则扩展到整个网络、Internet的检索。当然LUCENE加上爬虫程序等就会成为Nutch,这样理解应该没错吧。
三、请问Nutch的工作流程是什么
主要是三部分,爬虫(crawler)、创建索引、检索,前两部分是关键,后一部分多数是由我们自己开发,爬虫是nutch自己的,索引的创建与管理都是内置lucene来完成的,而且本身的发布包提供一个检索demo,可以让你很容易的布置出一个搜索引擎,若想试试,可查看我的百度博客。