Python爬虫项目 | 一、网易云音乐热歌榜歌曲

文章目录

  • 1.文章概要
    • [1.1 实现方法](#1.1 实现方法)
    • [1.2 实现代码](#1.2 实现代码)
    • [1.3 最终效果](#1.3 最终效果)
  • 2.具体讲解
    • [2.1 使用的Python库](#2.1 使用的Python库)
    • [2.2 代码说明](#2.2 代码说明)
      • [2.2.1 创建目录保存文件](#2.2.1 创建目录保存文件)
      • [2.2.2 爬取网易云音乐热歌榜单歌曲](#2.2.2 爬取网易云音乐热歌榜单歌曲)
    • [2.3 过程展示](#2.3 过程展示)
  • [3 总结](#3 总结)

1.文章概要

学习Python爬虫知识,实现简单的一个小案例,网易云音乐热歌榜歌曲

1.1 实现方法

本文使用Python中常用的requests库来实现的

1.2 实现代码

以下是本项目全部代码

python 复制代码
# author by mofitte
# vx:mofitte 
# date 2024年11月13日

import requests,re,os

filename = 'music\\'
if not os.path.exists(filename):
    os.makedirs(filename)

url = "https://music.163.com/discover/toplist?id=3778678"  # 网易云音乐热歌榜单页面
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36'}

response = requests.get(url, headers=headers)
# print(response.text)
html_data = re.findall('<li><a href="/song\?id=(\d+)">(.*?)</a>', response.text)
for song_id, song_name in html_data:
    music_url = f'http://music.163.com/song/media/outer/url?id={song_id}.mp3'
    # 对于音乐播放地址发送请求 获取二进制数据内容
    music_content = requests.get(url=music_url, headers=headers).content

    with open(filename + song_name + '.mp3', mode='wb') as f:
        f.write(music_content)
    print(song_id, song_name)
    print('爬虫任务已完成')

1.3 最终效果

2.具体讲解

2.1 使用的Python库

1.requests :一个简单易用的 Python 库,用于发送 HTTP 请求;

2.os : Python 的一个内置库,提供了许多操作文件和目录的功能;

3.re:用于处理正则表达式,它提供了一系列功能强大的函数,用于字符串的搜索、替换、匹配等操作;

2.2 代码说明

2.2.1 创建目录保存文件

python 复制代码
# author by mofitte
# vx:mofitte 
# date 2024年11月13日

import requests,re,os
filename = 'music\\'
if not os.path.exists(filename):
    os.makedirs(filename)

在PC上创建filename目录(这里我用的是Windows系统),用于保存后续爬取下来的音乐文件;

2.2.2 爬取网易云音乐热歌榜单歌曲

python 复制代码
url = "https://music.163.com/discover/toplist?id=3778678"  # 网易云音乐热歌榜单页面
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/130.0.0.0 Safari/537.36'}

response = requests.get(url, headers=headers)
# print(response.text)
html_data = re.findall('<li><a href="/song\?id=(\d+)">(.*?)</a>', response.text)
for song_id, song_name in html_data:
    music_url = f'http://music.163.com/song/media/outer/url?id={song_id}.mp3'
    # 对于音乐播放地址发送请求 获取二进制数据内容
    music_content = requests.get(url=music_url, headers=headers).content

爬取音乐核心代码块
url:这里我选择的是热歌榜单,你也可以直接替换为你想要爬取的榜单,直接运行也是可以的 ;
headers:模拟浏览器行为访问上述url,这个没啥可说的;

response:获取响应,这里是get了url和headers

html_data:获取音乐数据,通过正则表达式匹配音乐id和音乐名称;

music_url:下载音乐路径,可以在浏览器打开试听音乐;

2.3 过程展示




3 总结

本案例是采用了requests库来简单获取数据,下载音乐,过程还是相对简单的;更复杂的内容,可能需要其他技术来实现,继续学习。

看到这里了,我只希望能点个赞,谢谢

相关推荐
会Tk矩阵群控的小木10 小时前
小红书矩阵软件:基于Python+ADB的多设备批量管理自动化脚本实战
运维·python·adb·矩阵·自动化·新媒体运营·个人开发
复园电子10 小时前
企业PDF批量盖章开发集成指南:API对接OA/LIMS系统,高并发落地实战
开发语言·python·pdf
石山代码10 小时前
类型限定符的底层实现原理是什么?
python
雾沉川10 小时前
PyCharm 2025.2 完整安装与配置技术教程
ide·python·pycharm
眠りたいです11 小时前
LangChainv1:agent快速上手与中间件认识
人工智能·python·中间件·langchain·langgraph
2601_9563198811 小时前
期货报单被拒怎么识别与处理:order 状态与 last_msg 用法
python·区块链
yijianace11 小时前
Python爬虫实战:分页爬取 + 详情页采集 + CSV存储
前端·爬虫·python
蜂蜜黄油呀土豆11 小时前
Agent 循环:观察、思考、行动(ReAct 入门)
python·ai·大模型·react·js
SilentSamsara11 小时前
特征工程系统方法论:编码、分箱、交互特征与特征选择
开发语言·人工智能·python·机器学习·青少年编程·信息可视化·pandas
财经资讯数据_灵砚智能11 小时前
基于全球经济类多源新闻的NLP情感分析与数据可视化(夜间-次晨)2026年6月8日
大数据·人工智能·python·ai·信息可视化·自然语言处理·灵砚智能