Aapche Nutch建立自己的搜索引擎

sudo apt install default-jdk'

java -version

openjdk version "11.0.22" 2024-01-16

vi .bashrc

export JAVA_HOME=/usr/lib/jvm/java-11-openjdk-amd64

爬梯子下载源代码 Apache Nutch™ -- Downloads

mkdir -p urls

cd urls

touch seed.txt

里面放入我的网站地址

bin/nutch inject crawl/crawldb urls

显示

Injecting seed URL file file:/data/apache-nutch-1.19/urls/seed.txt

Total new urls injected: 1

s1=`ls -d crawl/segments/2* | tail -1`

echo $s1

bin/nutch generate crawl/crawldb crawl/segments

apache nutch No agents listed in 'http.agent.name' property.

conf/ nutch-site.xml

<property>

<name>http.agent.name</name>

<value>MyNutchBot/1.0</value>

</property>

export APACHE_SOLR_HOME=/data/solr-8.11.3

export NUTCH_RUNTIME_HOME=/data/apache-nutch-1.19

${APACHE_SOLR_HOME}/bin/solr start -force

open file limit is currently 1024

vi /etc/security/limits.conf

* soft nofile 4096

* hard nofile 4096

Started Solr server on port 8983 (pid=29369). Happy searching!

http://192.168.1.131:8983

${APACHE_SOLR_HOME}/bin/solr start -force

{APACHE_SOLR_HOME}/bin/solr create -c nutch -d {APACHE_SOLR_HOME}/server/solr/configsets/nutch/conf/ -force

ls crawl/segments/

bin/nutch index crawl/crawldb/ -linkdb crawl/linkdb/ crawl/segments/20240326063028/ -filter -normalize -deleteGone

https://dlcdn.apache.org/lucene/solr/8.11.3/solr-8.11.3.tgz

https://nutch.apache.org/download/

https://dlcdn.apache.org/nutch/1.19/apache-nutch-1.19-bin.tar.gz

https://cwiki.apache.org/confluence/display/NUTCH/NutchTutorial

去掉robot的处理

https://blog.csdn.net/jediael_lu/article/details/43227693

相关推荐
在努力的前端小白2 小时前
Spring Boot 敏感词过滤组件实现:基于DFA算法的高效敏感词检测与替换
java·数据库·spring boot·文本处理·敏感词过滤·dfa算法·组件开发
麦兜*3 小时前
Swift + Xcode 开发环境搭建终极指南
开发语言·ios·swiftui·xcode·swift·苹果vision pro·swift5.6.3
萧鼎4 小时前
Python pyzmq 库详解:从入门到高性能分布式通信
开发语言·分布式·python
一叶飘零_sweeeet5 小时前
从繁琐到优雅:Java Lambda 表达式全解析与实战指南
java·lambda·java8
艾伦~耶格尔5 小时前
【集合框架LinkedList底层添加元素机制】
java·开发语言·学习·面试
yujkss5 小时前
Python脚本每天爬取微博热搜-终版
开发语言·python
yzx9910135 小时前
小程序开发APP
开发语言·人工智能·python·yolo
一只叫煤球的猫5 小时前
🕰 一个案例带你彻底搞懂延迟双删
java·后端·面试
最初的↘那颗心5 小时前
Flink Stream API 源码走读 - print()
java·大数据·hadoop·flink·实时计算
啊阿狸不会拉杆6 小时前
《算法导论》第 32 章 - 字符串匹配
开发语言·c++·算法