基于Python开发Markdown兼容公式格式转换工具

基于Python开发Markdown兼容公式格式转换工具


一、工具背景

在技术写作中经常遇到公式格式问题:MathML无法显示、LaTeX格式错乱...

本工具实现以下核心功能:

✅ 自动转换MathML到KaTeX

✅ 标准化LaTeX公式格式

✅ 保留原文其他内容

✅ 图形化操作界面


工具效果演示


二、环境配置(Windows 10/11)

1. 创建conda环境

powershell 复制代码
# 打开PowerShell执行
conda create -n formula_tool python=3.8
conda activate formula_tool
pip install tk lxml pyinstaller

2. 获取XSLT转换文件

powershell 复制代码
# 下载MathML转LaTeX的XSLT文件
Invoke-WebRequest -Uri "https://raw.githubusercontent.com/ronaldo1967/MathML-to-LaTeX/master/mathml2tex.xsl" -OutFile mathml2tex.xsl

三、完整Python代码(带GUI)

python 复制代码
# formula_converter_gui.py
import tkinter as tk
from tkinter import scrolledtext, filedialog
import re
from lxml import etree
import os

class FormulaConverterGUI:
    def __init__(self, master):
        self.master = master
        master.title("公式格式转换工具 v1.0")
        master.geometry("800x600")
        
        # 界面组件
        self.create_widgets()
        self.xslt_path = "mathml2tex.xsl"
        
    def create_widgets(self):
        # 输入框
        self.input_label = tk.Label(self.master, text="输入内容:")
        self.input_label.pack(pady=5)
        
        self.input_text = scrolledtext.ScrolledText(self.master, wrap=tk.WORD, height=15)
        self.input_text.pack(fill=tk.BOTH, expand=True, padx=10)
        
        # 操作按钮
        self.button_frame = tk.Frame(self.master)
        self.button_frame.pack(pady=10)
        
        self.convert_btn = tk.Button(self.button_frame, text="转换公式", command=self.convert)
        self.convert_btn.pack(side=tk.LEFT, padx=5)
        
        self.clear_btn = tk.Button(self.button_frame, text="清空内容", command=self.clear)
        self.clear_btn.pack(side=tk.LEFT, padx=5)
        
        self.save_btn = tk.Button(self.button_frame, text="保存结果", command=self.save_file)
        self.save_btn.pack(side=tk.LEFT, padx=5)
        
        # 输出框
        self.output_label = tk.Label(self.master, text="转换结果:")
        self.output_label.pack(pady=5)
        
        self.output_text = scrolledtext.ScrolledText(self.master, wrap=tk.WORD, height=15)
        self.output_text.pack(fill=tk.BOTH, expand=True, padx=10)
        
        # 状态栏
        self.status_bar = tk.Label(self.master, text="就绪", bd=1, relief=tk.SUNKEN, anchor=tk.W)
        self.status_bar.pack(side=tk.BOTTOM, fill=tk.X)

    def convert(self):
        content = self.input_text.get("1.0", tk.END)
        converted = self.process_content(content)
        self.output_text.delete("1.0", tk.END)
        self.output_text.insert(tk.END, converted)
        self.status_bar.config(text="转换完成")

    def process_content(self, content):
        patterns = {
            'latex_block': re.compile(r'\$\$(.*?)\$\$', re.DOTALL),
            'latex_inline': re.compile(r'\$(.*?)\$'),
            'mathml': re.compile(r'<math.*?>(.*?)</math>', re.DOTALL)
        }
        
        # 处理块级公式
        content = patterns['latex_block'].sub(
            lambda m: f'$$\n{m.group(1).strip()}\n$$', 
            content
        )
        
        # 处理行内公式
        content = patterns['latex_inline'].sub(
            lambda m: f'${m.group(1).strip()}$', 
            content
        )
        
        # 处理MathML
        mathml_matches = patterns['mathml'].finditer(content)
        for match in mathml_matches:
            try:
                tex = self.mathml_to_tex(match.group(0))
                content = content.replace(match.group(0), f'$$ {tex} $$')
            except Exception as e:
                self.status_bar.config(text=f"转换失败:{str(e)}")
        
        return content

    def mathml_to_tex(self, mathml_str):
        xslt = etree.parse(self.xslt_path)
        transform = etree.XSLT(xslt)
        doc = etree.fromstring(mathml_str)
        result = transform(doc)
        return str(result).strip()

    def clear(self):
        self.input_text.delete("1.0", tk.END)
        self.output_text.delete("1.0", tk.END)
        self.status_bar.config(text="已清空")

    def save_file(self):
        file_path = filedialog.asksaveasfilename(
            defaultextension=".md",
            filetypes=[("Markdown文件", "*.md"), ("所有文件", "*.*")]
        )
        if file_path:
            with open(file_path, 'w', encoding='utf-8') as f:
                f.write(self.output_text.get("1.0", tk.END))
            self.status_bar.config(text=f"文件已保存至:{file_path}")

if __name__ == "__main__":
    root = tk.Tk()
    app = FormulaConverterGUI(root)
    root.mainloop()

四、核心功能解析

1. MathML转换原理

python 复制代码
def mathml_to_tex(mathml_str):
    xslt = etree.parse("mathml2tex.xsl")
    transform = etree.XSLT(xslt)
    return str(transform(etree.fromstring(mathml_str)))

2. 正则匹配引擎

python 复制代码
# 块级公式匹配
re.compile(r'\$\$(.*?)\$\$', re.DOTALL)

# 行内公式匹配
re.compile(r'\$(.*?)\$')

五、工具使用说明

1. 界面操作流程

  1. 粘贴或输入包含公式的内容
  2. 点击"转换公式"按钮
  3. 查看右侧转换结果
  4. 使用"保存结果"导出Markdown文件

2. 支持格式示例

原始格式 转换后格式
<math>...</math> $$ x = \frac{-b}{2a} $$
\Gamma(z)... $$\Gamma(z)...$$
$E=mc^2$ $E=mc^2$

六、常见问题解答

Q1: 转换后公式显示异常?

检查是否包含非标准LaTeX语法,建议使用CSDN官方支持的KaTeX语法

Q2: 如何添加新格式支持?

修改process_content方法,添加新的正则匹配规则

相关推荐
聪明的笨猪猪2 分钟前
Java 内存模型(JMM)面试清单(含超通俗生活案例与深度理解)
java·经验分享·笔记·面试
哈里谢顿6 分钟前
Celery Signal 类详解与实战
python
深蓝电商API16 分钟前
解析动态数据:如何抓取 JavaScript 加载的 AJAX 内容
爬虫·python
2401_8414956421 分钟前
【计算机视觉】霍夫变换检测
图像处理·人工智能·python·opencv·算法·计算机视觉·霍夫变换
m0_7415853540 分钟前
Django开发环境
python·django
一粒马豆1 小时前
python+flask_socketio+pyautogui实现简易远程桌面功能
python·flask·pyautogui·flask_socketio
想唱rap1 小时前
Linux指令(1)
linux·运维·服务器·笔记·新浪微博
东方芷兰2 小时前
LLM 笔记 —— 02 大语言模型能力评定
人工智能·笔记·python·神经网络·语言模型·自然语言处理·cnn
羞儿2 小时前
【pytorch】数据增强与时俱进,未来的改进和功能将仅添加到 torchvision.transforms.v2 转换中
pytorch·python·深度学习·数据增强
可触的未来,发芽的智生3 小时前
新奇特:负权重橡皮擦,让神经网络学会主动遗忘
人工智能·python·神经网络·算法·架构