AIGC+Python——AI赋能网页爬虫

引言

在当今数字化的时代,数据就像一座宝藏,而网页爬虫就是我们从海量数据中发掘宝藏的工具之一。而结合人工智能生成技术(AIGC)和Python语言,可以更快速地实现网页爬虫,让我们一起来探索这个神奇的组合吧!

流程

1. 安装引入相关库

首先,我们需要安装Python中用于网页爬虫的相关库,比如requests、BeautifulSoup等。这些库可以帮助我们发送HTTP请求,并解析HTML结构。

python 复制代码
# python http请求库
!pip install requests

# python dom 查找
# 不用写正则表达式
!pip install beautifulsoup4

# 通义千问大模型
!pip install dashscope
python 复制代码
import requests # node require
from bs4 import BeautifulSoup
import dashscope

2. 发送HTTP请求,得到HTML结构

接下来,我们可以通过发送HTTP请求来获取网页的HTML内容。

python 复制代码
def fetch_movie_list(url):
  # 设置HTTP 请求头
  headers = {
      'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36 Edg/124.0.0.0'
  }

  response = requests.get(url, headers=headers)

  # HTTP状态码 成功
  if response.status_code == 200:
    # 解析器 对html继续解析
    soup = BeautifulSoup(response.text, 'html.parser') # 内存中的dom对象
    movie_list = []
    movies = soup.select('#wrapper #content .article .item')
    # python 不是完全面向对象的,而更年轻的js 是完全面向对象
    # print(len(movies))
    # 确保一定是 字符串
    all_movies_text = ''.join([movie.prettify() for movie in movies[:2]])
    # print(all_movies_text)
    return all_movies_text
  else:
    print('Failed to retrieve content')


url = 'http://movie.douban.com/chart'

# 函数调用
movies = fetch_movie_list(url)
print(movies)

HTTP 请求头中的User-Agent 可以通过在浏览器中打印navigator.userAgent得到

3. 设置Prompt(预设提示)

在使用AIGC之前,我们需要设置Prompt,以便AIGC可以生成我们需要的内容。

python 复制代码
# AIGC LLM + Prompt(指令)
prompt = f"""
{movies}
这是一段电影列表html,请获取电影名(name),封面链接(picture),简介(info),评分(score),评论人数(conmmentsNumber)
,请使用括号里的单词作为属性名,并以JSON数组的格式返回
"""
print(prompt)

4. 调用通义千问API

现在,我们可以调用AIGC的API,并传入HTML内容和设置好的Prompt,让AIGC帮助我们生成网页爬虫所需的代码。

API_KEY 可以在模型服务灵积 DashScope - 阿里云 (aliyun.com)中点击立即开通后点击控制台的API_KEY管理获得

python 复制代码
# 更改为自己的API_KEY
dashscope.api_key = API_KEY

def call_qwen_with_prompt():
  message = [
      {
          'role':'user',
          'content':prompt
      }
  ]
  response = dashscope.Generation.call(
      dashscope.Generation.Models.qwen_turbo,
      messages = message,
      result_messages = 'messages'
  )
  print(response)
call_qwen_with_prompt()

结语

最终,通过以上步骤,我们可以快速实现一个网页爬虫,从网页中提取我们需要的信息。让编程变得更简单,让AIGC和Python助力你的工作吧!如果你觉得这篇文章有帮助或有所启发,别忘了给我一个鼓励的

相关推荐
羊羊小栈5 小时前
基于「多模态大模型 + BGE向量检索增强RAG」的新能源汽车故障诊断智能问答系统(vue+flask+AI算法)
vue.js·人工智能·算法·flask·汽车·毕业设计·大作业
山烛5 小时前
深入解析 YOLO v2
人工智能·yolo·计算机视觉·目标跟踪·yolov2
GISer_Jing5 小时前
AI/CICD/Next/React Native&Taro内容
人工智能·react native·taro
声网5 小时前
阿里发布「夸克 AI 眼镜」:融合阿里购物、地图、支付生态;苹果拟收购计算机视觉初创 Prompt AI丨日报
人工智能·计算机视觉·prompt
IT_陈寒6 小时前
Java性能调优实战:7个让GC效率提升50%的关键参数设置
前端·人工智能·后端
爱看科技6 小时前
微美全息(NASDAQ:WIMI)融合区块链+AI+IoT 三大技术,解锁物联网入侵检测新范式
人工智能·物联网·区块链
CodeCraft Studio6 小时前
Excel处理控件Aspose.Cells教程:使用 Python 将 HTML 转换为 Excel
python·html·excel·aspose·aspose.cells·html转excel
华为云开发者联盟6 小时前
华为开发者空间携手乐知行:轻松实现智能网联小车数据可视化系
人工智能·华为开发者空间
王中阳Go6 小时前
Python 的 PyPy 能追上 Go 的性能吗?
后端·python·go
云卓SKYDROID7 小时前
飞控信号模块技术要点与难点分析
人工智能·无人机·航电系统·高科技·云卓科技