【python实用小脚本-182】Python一键爬取今日新闻:5分钟生成Word+CSV——再也不用复制粘贴

Python一键爬取今日新闻:5分钟生成Word+CSV------再也不用复制粘贴

新闻爬虫, 自动导出, Word+CSV, 零配置, 瑞士军刀

故事开场:一把瑞士军刀救了早八的你

周一早八,老师布置任务:"整理今天国内外 50 条新闻要点做汇报。"

你打开浏览器,复制标题→作者→正文→粘贴到 Word,手指抽筋到第 5 条就崩溃。

这时,你从桌面掏出"小白瑞士军刀"------news_scraper.py

双击运行,30 秒后:

  • news.txt:纯文本要点
  • news.docx:带格式的 Word
  • news.csv:Excel 直接透视

汇报材料一次性到位,老师点赞:"效率真高!"

痛点解决:再也不用一条条手动复制,5 分钟搞定今日新闻全格式。


完整代码(≤1000字符,直接展示)

python 复制代码
import requests, datetime as dt
from bs4 import BeautifulSoup
from docx import Document
import pandas as pd

today = dt.date.today()
page = requests.get("https://inshorts.com/en/read/")
soup = BeautifulSoup(page.content, 'html.parser')

headlines = [s.get_text() for s in soup.find_all('span', itemprop="headline")]
authors   = [s.get_text() for s in soup.find_all('span', class_="author")[::2]]
dates     = [s.get_text() for s in soup.find_all('span', class_="date")]
times     = [s.get_text() for s in soup.find_all('span', class_="time")]
bodies    = [s.get_text() for s in soup.find_all('div', itemprop="articleBody")]

final = [
    {'Title': h, 'Author': a, 'Date': d, 'Time': t, 'Details': b}
    for h, a, d, t, b in zip(headlines, authors, dates, times, bodies)
]

# 1) 纯文本
with open("news.txt", "w", encoding="utf-8") as f:
    f.write(f"NEWS {today}\n")
    for item in final:
        for k, v in item.items():
            f.write(f"{k}: {v}\n")
        f.write("\n")

# 2) Word
doc = Document()
doc.add_heading(f"NEWS {today}", 0)
for item in final:
    p = doc.add_paragraph("")
    for k, v in item.items():
        p.add_run(f"{k}: {v}\n")
doc.save("news.docx")

# 3) CSV
pd.DataFrame(final).to_csv("news.csv", index=False)

代码解析

功能块 1:一页爬全站

requests + BeautifulSoup 一句拿到 HTML,再用 find_all 批量抓标题/作者/正文。

python 复制代码
soup.find_all('span', itemprop="headline")

功能块 2:数据一键打包

把五条信息放进字典列表,zip 配对,避免索引错位。

python 复制代码
final = [{'Title': h, 'Author': a, ...} for h, a, d, t, b in zip(...)]

功能块 3:三格式同步输出

  • 纯文本:最轻量,手机也能看
  • Word:带标题、段落,汇报直接交
  • CSV:Excel 透视,图表随便做
python 复制代码
pd.DataFrame(final).to_csv("news.csv", index=False)

如果还想更厉害

扩展点子 1:自定义关键词过滤

--keyword 人工智能,只保留含关键词的新闻。

python 复制代码
import argparse
parser = argparse.ArgumentParser()
parser.add_argument("--keyword", default="")
args = parser.parse_args()
final = [f for f in final if args.keyword.lower() in f['Details'].lower()]

扩展点子 2:GUI 拖拽

tkinter 做个窗口,拖 CSV 或点按钮即可重新导出。

python 复制代码
import tkinter as tk, tkinter.filedialog as fd
root = tk.Tk()
csv_path = fd.askopenfilename(filetypes=[("CSV", "*.csv")])
df = pd.read_csv(csv_path)

总结

news_scraper.py 这把 30 行瑞士军刀,把"开网页→复制→粘贴→排版"四步压缩成"双击→收工"。

你无需安装任何大型软件,就能把实时新闻变成 TXT、Word、CSV 三件套。

再加两行参数或 GUI,它就从脚本升级成新闻工厂。

下次再被老师/老板要"今日要点",直接甩文件!

源码获取

完整代码已开源,包含详细的注释文档:

🔗 [GitCode仓库] https://gitcode.com/laonong-1024/python-automation-scripts

📥 [备用下载] https://pan.quark.cn/s/654cf649e5a6 提取码:f5VG

相关推荐
二哈赛车手2 分钟前
新人笔记---项目中简易版的RAG检索后评测指标(@Recall ,Mrr..)实现
java·开发语言·笔记·spring·ai
格林威4 分钟前
3D相机视觉检测:环境光太强,结构光点云全是噪点怎么办?
开发语言·人工智能·数码相机·计算机视觉·3d·视觉检测·工业相机
Rust语言中文社区11 分钟前
【Rust日报】2026-05-02 Temper - 用 Rust 编写的 Minecraft 服务器项目发布 0.1.0 版
运维·服务器·开发语言·后端·rust
爱滑雪的码农1 小时前
Java基础十一 流(Stream)、文件(File)和IO
java·开发语言·python
叶小鸡1 小时前
Java 篇-项目实战-天机学堂(从0到1)-day11
java·开发语言
格林威1 小时前
线阵工业相机:线阵图像出现“波浪纹”,是机械振动还是编码器问题?
开发语言·人工智能·数码相机·计算机视觉·视觉检测·工业相机·线阵相机
knight_9___1 小时前
LLM工具调用面试篇5
人工智能·python·深度学习·面试·职场和发展·llm·agent
liliangcsdn1 小时前
LLM如何辅助RAG从大量文档中筛选目标文档
开发语言·人工智能
无忧.芙桃1 小时前
C++IO库的超详细讲解
开发语言·c++