【无标题】word 中的中文排序

复制代码
import docx
from docx import Document
from docx.shared import Pt
from pypinyin import pinyin, Style, lazy_pinyin
import re


def get_first_char_pinyin(text):
    """获取中文段落开头汉字的拼音(首字母大写)"""
    if re.match(r'[\u4e00-\u9fff]', text):
        return lazy_pinyin(text[0], style=Style.FIRST_LETTER)[0].upper()
    return ''


def is_chinese_paragraph(paragraph):
    """判断段落是否为中文段落"""
    return bool(re.match(r'[\u4e00-\u9fff]', paragraph.text.strip()))


def apply_font_to_paragraph(paragraph, font_name='宋体'):
    """为段落应用指定的字体"""
    for run in paragraph.runs:
        try:
            run.font.name = font_name
        except ValueError:
            # 如果字体名称无效或不受支持,可能会引发ValueError
            # 这里可以捕获异常并做适当处理,比如记录日志或回退到默认字体
            pass


def sort_paragraphs(paragraphs):
    """根据要求排序段落,处理空文本段落"""
    chinese_paragraphs = []
    english_paragraphs = []

    for p in paragraphs:
        stripped_text = p.text.strip()
        if stripped_text:  # 只处理非空文本段落
            if is_chinese_paragraph(p):
                # 对中文段落,使用拼音首字母作为排序键(如果文本非空)
                # 注意:这里假设 get_first_char_pinyin 能处理单字符输入
                chinese_paragraphs.append(
                    (p, get_first_char_pinyin(stripped_text[0]) if len(stripped_text) > 0 else ''))
            else:
                # 对英文段落,使用文本首字母小写作为排序键(如果文本非空)
                english_paragraphs.append((p, stripped_text[0].lower() if len(stripped_text) > 0 else ''))

                # 对中英文段落分别按排序键排序(注意这里我们存储了段落和排序键的元组)
    chinese_paragraphs.sort(key=lambda x: x[1])
    english_paragraphs.sort(key=lambda x: x[1])

    # 提取排序后的段落对象列表
    sorted_chinese = [p for p, _ in chinese_paragraphs]
    sorted_english = [p for p, _ in english_paragraphs]

    # 合并排序后的中英文段落列表
    return sorted_chinese + sorted_english


def main(input_path, output_path):
    # 读取Word文档
    doc = Document(input_path)
    paragraphs = doc.paragraphs

    # 排序段落
    sorted_paragraphs = sort_paragraphs(paragraphs)

    # 创建新的Word文档并添加排序后的段落
    new_doc = Document()
    for para in sorted_paragraphs:
        new_para = new_doc.add_paragraph()
        # 复制段落内容
        new_para.add_run(para.text)
        # 为中文段落应用宋体字体(如果可用)
        if is_chinese_paragraph(para):
            apply_font_to_paragraph(new_para, '宋体')

            # 保存新的Word文档
    new_doc.save(output_path)


if __name__ == "__main__":
    input_path = 'input.docx'  # 输入的Word文件路径
    output_path = 'sorted_output.docx'  # 输出的Word文件路径
    main(input_path, output_path)
相关推荐
不会C语言的男孩14 分钟前
C++ Primer 第3章:字符串、向量和数组
开发语言·c++
兰令水16 分钟前
leecodecode【反前后指针】【2026.5.31打卡-java版本】
java·开发语言
Dovis(誓平步青云)1 小时前
《QT学习第四篇:常见事件与UDP、TCP、文件系统、(锁、信号量、条件变量》
c语言·开发语言·汇编·qt
isyangli_blog10 小时前
OpenDayLight (Carbon 版本) 启动与组件安装
开发语言·php
vb20081110 小时前
FastAPI APIRouter
开发语言·python
Benszen10 小时前
KVM虚拟化解决方案
开发语言·perl
会编程的土豆10 小时前
Go 语言反射(Reflection)详解
开发语言·后端·golang
東雪木10 小时前
多线程与并发编程 专属复习笔记
java·开发语言·笔记·java面试
杨充10 小时前
1.3 浮点型数据设计灵魂
开发语言·python·算法
噜噜噜阿鲁~10 小时前
python学习笔记 | 11.3、面向对象高级编程-多重继承
java·开发语言