Nutch2.1+mysql+solr3.6.1+中文网站抓取

来源：动视网责编：小采时间：2020-11-09 15:17:16

Nutch2.1+mysql+solr3.6.1+中文网站抓取

Nutch2.1+mysql+solr3.6.1+中文网站抓取:1、mysql 数据库配置 linux mysql安装步骤省略。创建数据库与表 [sql] view plaincopyprint CREATE DATABASE nutch DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; CREATE TABLE `webpag

推荐度：

点击下载本文 文档为doc格式

导读Nutch2.1+mysql+solr3.6.1+中文网站抓取:1、mysql 数据库配置 linux mysql安装步骤省略。创建数据库与表 [sql] view plaincopyprint CREATE DATABASE nutch DEFAULT CHARACTER SET utf8 DEFAULT COLLATE utf8_general_ci; CREATE TABLE `webpag

E、使用ant编译 ${APACHE_NUTCH_HOME} 。

F、设置待抓取的网站

cd ${APACHE_NUTCH_HOME}/runtime/local
mkdir -p urls
echo 'http://nutch.apache.org/' > urls/seed.txt

G、执行爬行操作： bin/nutch crawl urls -depth 3 -topN 5

执行完在mysql中即可以查看到爬虫抓取的内容

3、安装solr，对nutch抓取的内容进行索引

（注意：参考资料中推荐使用solr4.0版本，4.0的两个版本我都试了，没有成功，所以替换为3.6.1版本）

solr下载地址：http://www.fayea.com/apache-mirror/lucene/solr/3.6.1/apache-solr-3.6.1.zip

A、解压缩下载包，

B、下载 http://nlp.solutions.asia/wp-content/uploads/2012/08/schema.xml替换${APACHE_SOLR_HOME}/example/solr/conf/schema.xml.

C、启动solr

cd ${APACHE_SOLR_HOME}/example