Aapche Nutch建立自己的搜索引擎

sudo apt install default-jdk'

java -version

openjdk version "11.0.22" 2024-01-16

vi .bashrc

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

爬梯子下载源代码 Apache Nutch™ -- Downloads

mkdir -p urls

cd urls

touch seed.txt

里面放入我的网站地址

bin/nutch inject crawl/crawldb urls

显示

Injecting seed URL file file:/data/apache-nutch-1.19/urls/seed.txt

Total new urls injected: 1

s1=`ls -d crawl/segments/2* | tail -1`

echo $s1

bin/nutch generate crawl/crawldb crawl/segments

apache nutch No agents listed in 'http.agent.name' property.

conf/ nutch-site.xml

<property>

<name>http.agent.name</name>

<value>MyNutchBot/1.0</value>

</property>

export APACHE_SOLR_HOME=/data/solr-8.11.3

export NUTCH_RUNTIME_HOME=/data/apache-nutch-1.19

${APACHE_SOLR_HOME}/bin/solr start -force

open file limit is currently 1024

vi /etc/security/limits.conf

* soft nofile 4096

* hard nofile 4096

Started Solr server on port 8983 (pid=29369). Happy searching!

http://192.168.1.131:8983

${APACHE_SOLR_HOME}/bin/solr start -force

{APACHE_SOLR_HOME}/bin/solr create -c nutch -d {APACHE_SOLR_HOME}/server/solr/configsets/nutch/conf/ -force

ls crawl/segments/

bin/nutch index crawl/crawldb/ -linkdb crawl/linkdb/ crawl/segments/20240326063028/ -filter -normalize -deleteGone

https://dlcdn.apache.org/lucene/solr/8.11.3/solr-8.11.3.tgz

https://nutch.apache.org/download/

https://dlcdn.apache.org/nutch/1.19/apache-nutch-1.19-bin.tar.gz

https://cwiki.apache.org/confluence/display/NUTCH/NutchTutorial

去掉robot的处理

https://blog.csdn.net/jediael_lu/article/details/43227693

相关推荐
likuolei7 分钟前
XQuery 完整语法速查表(2025 最新版,XQuery 3.1)
xml·java·数据库
雨中飘荡的记忆12 分钟前
LangChain4j 实战指南
java·langchain
okseekw14 分钟前
Java 中的方法:从定义到重载的完整指南
java
雨中飘荡的记忆15 分钟前
深入理解设计模式之适配器模式
java·设计模式
用户849137175471616 分钟前
生产级故障排查实战:从制造 OOM 到 IDEA Profiler 深度破案
java·jvm
雨中飘荡的记忆19 分钟前
深入理解设计模式之装饰者模式
java·设计模式
雨中飘荡的记忆23 分钟前
秒杀系统设计与实现
java·redis·lua
CryptoPP28 分钟前
使用 KLineChart 这个轻量级的前端图表库
服务器·开发语言·前端·windows·后端·golang
18你磊哥34 分钟前
chromedriver.exe的使用和python基本处理
开发语言·python
小坏讲微服务1 小时前
Spring Cloud Alibaba 整合 Scala 教程完整使用
java·开发语言·分布式·spring cloud·sentinel·scala·后端开发