技术栈
网页读取
暮暮七
1 个月前
python
·
rag
·
llamaindex
·
网页读取
基于Llamaindex的网页内容爬取实战
本文不关注如何解析网页 html 元素和各种 python 爬虫技术,仅作为一种网页数据的预处理手段进行研究。Llamaindex 也并不是爬虫技术的集大成者,使用它是为了后续的存查一体化。