Windows下安装Nutch
来源:http://www.tudoupe.com时间:2022-04-05
Nutch安装
一、需求部份
(a) 由于Nutch是用爪哇制造的,Java JDK必须下载。
抱歉, Sun. 这篇文章是我们特别报导全球之声在线.com/javase/ downloads/index.jsp/javase/ downloads/index.jsp/javase/ downloads/index.jsp/javas/javase/ downloads/index.jsp/javase/ downloads/index.jsp/javase/ downloads/index.jsp/javas/ downloads/index.jsp/jsp/
(b) Nutch的演示搜索页面显示Jsp要求Tomcat作为服务器。
http://jakarta.org/tomcat/I'm sorry, apache.Org/tomcat/ http://jakarta.org/tomcat/ i'm sorry, apache. Org/tomcat/
Nutch的剧本是用Linux的《壳牌》制作的因此,在Windows平台上,需要一个壳牌解释软件。Cygwin 是一个基于 Windows 的 Linux 模拟程序 。(通知 Linux 不要求下载此软件 。 )
这篇文章是我们2011年叙利亚抗争特别报导的一部分。
(d) Nutch下载 URL:http://lucene.org. I'm sorry, apache.
(e) 建议安装UltraEdit文本编辑器。
二、安装步骤
(a) Java JDK的建立
安装后,在 Win7 下设定环境变量,与 XP 不同,无论是在系统变量中还是在用户变量中
JAVA_HOME 是变量名称 。
变量值 D: Javajdk (取决于安装路径) 。
变量名 PATH
% JAVA_ HOME%bin;% Path% (“% 变量名称”指上一个变量)
CLASSPATH是变量名称。
值是变量 。% JAVA_ HOME% lib;% CATALINA_ HOME% lib (起始时)'. 我无法保存它。这正是Tomcat需要的。
当变量安装完成时, 将“ cmd” 键入命令行, 然后将“ java”、“ javac” 和“ java- version” 键入“ cmd” 键入命令行, 以便查看特定信息是否显示无错误信息, 如下文所示 。
(a) 托姆卡特的设立
设置环境变量, 允许Tomcat 不使用中文就进行减压 。
变化名称为CATALINA_HOME。
D:bisheepache-tomcat-7. 图片来自Flickr用户pic.
变数CLASSPATH的更改现已完成,不再需要。
启动Catalina。Bat,去到这个目录 与CMD。
Tomcat的启动和停止文件是启动。 我不确定蝙蝠和关闭。
d) 建立Cygwin
软件安装后,下图如下:
最好在此之后进入下一个阶段。安装路线称为“根目录”。安装文件的路径( 这也是设置路径) 是本地软件包路径 。完成后, 它会被保存到桌面 。这是cygwin, 位于cygwin目录中 。
d)natch安装
下载完成,然后在非中文线路下取消。
NUTCH_JAVA_HOME 是变量名称 。
% JAAVA_HOME % 变量值
启动 Cygwin 运行命令 cd/ cygdrive/d/bishe/nutch- 1. 2. 2。 之后, 如果绘制了图表, 则成功输入 bin/ nutch 安装 。
三、配置步骤
(a) 在 Nutch 目录下建立一个 urls 目录, 然后在目录中创建 txt 文件, 并附上任何文件名, 以确定搜索网站的起始位置, 例如 http://ww. un.org/search 站点; 我不知道你在说什么, 但我不知道你在说什么。 我不知道你在说什么, edu. Cn/ 。
(b) 更改网络过滤规则conf/craw-urlfilter.txt文件中的我。
+http://([a-z0-9])**#ustc.我不知道你在说什么 edu.cn/ 这只设定在 URL 结尾处抓 edu.cn 。
(c) 在 conf/nutch- site.Xml 代理信息中添加以下文件:
http.agent.name
ubunturer (Ubuntu是一个自定义值, 某些争论可以是空的 。)
有个词来形容它,我就是那个词
http.agent.description
ubuntuer
http.agent.url
http.agent.email
iptabler@gmail.com
(d) 运行坚果收集URL信息。
Cygwin 命令行窗口的 cd/ cygdrive/d/nutch-1.2 类型
再输入bin/nutch crawl urls –dir crawl –depth 3 –threads 4 –topN 30 >& crawl.log
记住在命令行窗口中键入命令! 命令的描述 :
Nutch 搜索数据命令爬行后有要检索的 URL 文件。 urls 是所准备文件的 (a) 部分 。
- dir 是搜索以保存目录参数的结果, 并随后将结果保存到位置。 注意, 如果我们将其存储在 Nutch 目录下的爬行目录中, 此目录目前不存在。 搜索完成后, 将组成 Nutch 。
检索时 - 深度参数,
--topN 捕捉每个页面的最大抓取链接数
最后, 将执行信息写入 rail.log 日志文件, 从而简单查找错误 。
(e) 建立托马喀
该视频已放在互联网上,并可在互联网上查阅。启动Tomcat,将自动部署。我们要关闭Tomcat。在WEB-INF类中包括Webaptsnutch-1. Nutch网站不是一个好主意。增加搜索的目录:
searcher.dir
D:bishennutch- 1. 2crawl( 这是对先前保存的地址的搜索)
支持中文, 配置 Tomcatconf 服务器。 在 xml 中, 使用 BokeEncodingForuri=True 添加 URIEncoding = “ UTF-8 ”, 最后 :
Tomcat可以通过访问http://localhost:8080/nutch-1.2/nutch-1.2/nutch-1.2/nutch-1.2/nutch-1.2/nutch-1.2/nutch-1.2/nutch-1.2/nutch-1.2/nutch-1.2/nutch-1.2/nutch-1.2/nutch-1.2/nutch-1.2/nutch-1.2/nutch-2nutch-
四、搜索结果
Nutch的安装已接近完成。
相关新闻
- 2022-08-04 WPF的由来
- 2022-08-04 Win11勒索软件防护怎么打开?Win11安
- 2022-08-04 Windows系统jdk的配置
- 2022-08-04 Windows10 OneNote怎么重新登录?如何重
- 2022-08-04 超好用的 Windows 效率工具推荐
- 2022-08-04 Windows如何在CMD或PowerShell中配置代理
- 2022-08-04 powershell和cmd对比
- 2022-08-04 【QT】Windows下QT下载安装
- 2022-08-04 windows下 C++ 实现类属性的get和set方
- 2022-08-04 Win11快速助手在哪里?Win11打开快速
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
