将 Markdown 转为 AST:实现思路与实战解析

将 Markdown 转为 AST:实现思路与实战解析

在前端开发中,有时我们不仅仅需要渲染 Markdown,还希望对其结构进行精细化操作,比如自定义组件渲染、添加交互或者导出成不同格式。这时,把 Markdown 转为 AST(抽象语法树)就非常必要。本文将分享一个完整的实现思路,并提供 TypeScript 实现示例。


功能目标

我们的目标是:

  1. 将 Markdown 文本解析成一棵 AST 树;
  2. 支持文本、代码块、HTML 标签、换行等节点类型;
  3. 支持自定义标签(如 <map> 标签)和属性解析;
  4. AST 树便于后续渲染或进一步处理。

效果示意:

ini 复制代码
const markdown = `
# 标题
这是 **加粗** 文本
<map name="myMap">地图</map>
`;

const ast = mdToAST(markdown);
console.log(ast);

输出:

css 复制代码
[  { "type": "heading", "attrs": { "level": 1 }, "children": [{ "type": "text", "text": "标题" }] },
  { "type": "paragraph", "children": [
      { "type": "text", "text": "这是 " },
      { "type": "strong", "children": [{ "type": "text", "text": "加粗" }] },
      { "type": "text", "text": " 文本" }
  ]},
  { "type": "map", "attrs": { "name": "myMap" }, "children": [
      { "type": "text", "text": "地图" }
  ]}
]

实现思路

实现主要分为两个步骤:

  1. 将 Markdown 转为 Token
  2. 将 Token 转为 AST

1️⃣ 使用 markdown-it 解析 Markdown 为 Token

markdown-it 是一款强大的 Markdown 解析器,它会将 Markdown 文本解析为 token 列表,每个 token 描述了一个语法结构。

ini 复制代码
import MarkdownIt from 'markdown-it';

const md = new MarkdownIt({ html: true });
const tokens = md.parse(markdown, {});

Token 示例:

json 复制代码
[
  { "type": "heading_open", "tag": "h1", "attrs": null },
  { "type": "inline", "content": "标题", "children": [...] },
  { "type": "heading_close", "tag": "h1" }
]

2️⃣ 将 Token 转为 AST

Token 的解析是核心步骤,我们需要处理以下几种情况:

文本与内联代码
go 复制代码
if (token.type === 'text' || token.type === 'code_inline') {
  addNode({ type: 'text', text: token.content });
}
自定义 HTML 标签 <map>

我们使用正则匹配 <map ...> 标签,并解析属性:

typescript 复制代码
const MAP_TAG_OPEN_REGEX = /^<map\s+([^>]*)>/i;

function parseAttrs(attrString: string): Record<string, string> {
  const attrs: Record<string, string> = {};
  const regex = /([\w-:]+)\s*=\s*"([^"]*)"/g;
  let match;
  while ((match = regex.exec(attrString))) {
    attrs[match[1]] = match[2];
  }
  return attrs;
}

解析 <map name="myMap">地图</map>,生成 AST 节点:

json 复制代码
{ "type": "map", "attrs": { "name": "myMap" }, "children": [{ "type": "text", "text": "地图" }] }
块级与内联节点的递归

使用 stack 来维护嵌套结构:

go 复制代码
if (token.type.endsWith('_open')) {
  const node: ASTNode = { type, attrs: {}, children: [] };
  addNode(node);
  stack.push({ node });
}

if (token.type.endsWith('_close')) {
  stack.pop();
}
换行处理
ini 复制代码
if (token.type === 'softbreak') addNode({ type: 'softbreak' });
if (token.type === 'hardbreak') addNode({ type: 'hardbreak' });
内联 token 递归
ini 复制代码
if (token.type === 'inline' && token.children) {
  const childrenAST = tokensToAST(token.children);
  childrenAST.forEach(child => addNode(child));
}

核心亮点

  1. 支持自定义标签
    支持 <map> 等自定义 HTML 标签,并能解析属性,便于做可交互组件渲染。
  2. 完整的 AST 结构
    支持嵌套结构,通过栈维护父子关系,AST 可以直接用于渲染或导出其他格式。
  3. 文本与 HTML 混合处理
    文本、内联代码、HTML 块、换行都能正确处理,保证 Markdown 原意保留。
  4. 可扩展性强
    新增自定义标签只需增加正则匹配即可,整体解析逻辑清晰。

总结

本文展示了如何用 TypeScript 将 Markdown 转为 AST,并支持自定义标签和属性解析。核心思路是:

  1. 使用 markdown-it 将 Markdown 转为 token;
  2. 递归解析 token,处理文本、内联代码、HTML、自定义标签、换行等;
  3. 利用栈维护嵌套关系,生成完整的 AST。

这种方式非常适合在前端进行自定义渲染、编辑器实现、导出格式转换等场景。

相关推荐
少年阿闯~~1 小时前
HTML——1px问题
前端·html
Mike_jia1 小时前
SafeLine:自托管WAF颠覆者!一键部署守护Web安全的雷池防线
前端
brzhang1 小时前
把网页的“好句子”都装进侧边栏:我做了个叫 Markbox 的收藏器,开源!
前端·后端·架构
VincentFHR3 小时前
Canvas 高性能K线图,支持无限左右滑动
前端·数据可视化·canvas
sophie旭3 小时前
一道面试题,开始性能优化之旅(3)-- DNS查询+TCP(二)
前端·面试·性能优化
面向星辰3 小时前
css选择器(继承补充)
前端·css
koooo~3 小时前
Vue3中的依赖注入
前端·javascript·vue.js
huuyii3 小时前
Nest 基础知识
前端
沢田纲吉3 小时前
《LLVM IR 学习手记(三):赋值表达式与错误处理的实现与解析》
前端·编程语言·llvm
sophie旭3 小时前
一道面试题,开始性能优化之旅(3)-- DNS查询+TCP(一)
前端·面试·性能优化