提取html到markdown

html内容提取成markdown并总结


一句话介绍

这是一个文章归档工具:输入网页 URL,即可提取正文并转换为 Markdown,同时自动处理文中图片,方便沉淀到知识库或二次创作。

应用场景

  • 内容运营:把资讯、教程、博客快速沉淀为标准 Markdown。
  • 知识管理:把分散网页归档到 Obsidian、Notion、Git 仓库等知识库。
  • 团队协作:统一文章存档格式,便于检索、复用和 AI 总结。
  • 技术调研:将长文一键提炼为可预览、可下载、可再加工的内容资产。

部署方式(最简)

本项目为 Node.js 服务,默认监听 3100 端口,启动后即可通过浏览器访问。

最少环境变量

建议创建 .env(可直接复制 .env.example):

env 复制代码
PORT=3100
PUBLIC_IMAGE_BED_PROVIDER=tmpfiles

说明:

  • PORT:服务端口,不填时默认 3100
  • PUBLIC_IMAGE_BED_PROVIDER:图片托管服务,默认 tmpfiles

通过终端部署

在项目根目录执行:

bash 复制代码
npm install
cp .env.example .env
npm start

Windows PowerShell 可使用:

powershell 复制代码
npm install
Copy-Item .env.example .env
npm start

启动后访问:http://localhost:3100

相关推荐
IT_陈寒1 小时前
Vite的热更新突然不香了,排查三小时差点砸键盘
前端·人工智能·后端
用户8356290780512 小时前
Python 实现 PDF 文件加密与解密方法
后端·python
用户8356290780512 小时前
使用 Python 冻结与拆分 Excel 窗格教程
后端·python
阿里云大数据AI技术3 小时前
构建高转化海外电商搜索:阿里云OpenSearch行业算法版的全链路智能优化策略实战
人工智能·搜索引擎
Awu12273 小时前
⚡从零开发 Agent CLI(五)实现一个可治理、可扩展的工具系统
前端·人工智能·claude
字节跳动视频云技术团队3 小时前
让 Agent 成为音视频工作台:AI MediaKit CLI + Skill 发布
人工智能·音视频开发
魏祖潇3 小时前
framework 整合实战——DDD/TDD/SDD 三件套在 framework 仓的真实落地
人工智能·后端
Token炼金师4 小时前
去噪扩散:从随机噪声到高保真图像的数学之路
人工智能·aigc
这个DBA有点耶4 小时前
AI写的SQL跑崩了生产库,这锅谁背?
数据库·人工智能·程序员