C# 操作Word模拟解析HTML标记输出带格式的文本

目录

需求与困惑

解决方案

范例运行环境

[配置Office DCOM](#配置Office DCOM)

设计实现

组件库引入

​编辑

方法实现

小结


需求与困惑

应需求通过算法输出纯文本内容到 MS Word 对应的替换字段中,原有的设计仅能保持模板设定的格式,如下是一个WORD表格,下方单元格中输出题目内容,固定格式为宋体:

但客户的需求是希望题目为黑体加粗,考察关键点为正常宋体,颜色置灰,如下图:

初期的设想是通过 Word.Find 对象配合扩展的格式参数,进行查找结果关键字进行替换及格式重置操作,发现无法定位精准或有效的 Range ,尤其是 Word.Shape.TextFrame.TextRange ,参考、搜索了一些资料,问题仍无法解决。

解决方案

目前主要针对如下两个 Range 对象进行操作:

|----|---------------------------------|-------------------------------|
| 序号 | 对象 | 说明 |
| 1 | Word.Appication.Selection.Range | 页面选择区域范围对象(如查找到的段落高亮文字显示结果) |
| 2 | Word.Shape.TextFrame.TextRange | 形状对象,对象内包含文字,且查找到的文字结果范围Range |

基本的实现的思路如下:

一、将原始输出文本按照指定的定义进行 HTML 标记化,如将 "这是一段文本" 文本更改为 "<span style='font-family:黑体;font-weight:bold'>这是一段文本</span>" (html 部分使用标准的 span + style ),这样可以同时兼容标准的网页版输出。

二、对 Range 的文本(Text)使用正则表达式提取 HTML 标记间的所有查找关键字。

三、对 Range 的字符集对象(Word.Characters)进行逐字操作,提取 HTML 标记的 style 属性部分,分隔各种 style 进行解析,重刷每一个字符的格式。

四、处理完格式设置,调用 Range.Find 对象替换掉 "多余" 的 HTML 标记文本,完成最终输出效果。

范例运行环境

操作系统: Windows Server 2019 DataCenter

操作系统上安装 Office Word 2016

数据库:Microsoft SQL Server 2016

.net版本: .netFramework4.7.1 或以上

开发工具:VS2019 C#

配置Office DCOM

配置方法可参照我的文章《C# 读取Word表格到DataSet》进行处理和配置。

设计实现

组件库引入

方法实现

processWordChars 方法基本说明如下表:

| 序号 | 参数名称 | 参数类型 | 说明 |

1 chars Word.Characters Word.Range的字符集对象

方法示例代码如下:

cs 复制代码
void processWordChars(Word.Characters chars)
{

  string content = chars.Parent.Text;
  if (content == null || content == "") { return; }
  Word.Find fnd = chars.Parent.Find;

  ArrayList paras2 = new ArrayList();
  paras2.Add(new string[] { "<span style=", "</span>" });
  foreach (string[] p in paras2)
  {
      string pattern = string.Format(@"{0}(.*?){1}", p[0], p[1]);
      System.Text.RegularExpressions.MatchCollection matches = System.Text.RegularExpressions.Regex.Matches(content, pattern);
      foreach (System.Text.RegularExpressions.Match match in matches)
      {
         string key = match.Groups[1].Value;  //提取的内容
         string vkey = key.Substring(key.IndexOf('>') + 1); //最终有效内容
                    
         string vstyle = key.Substring(1, key.Length - vkey.Length - 3); //截取 style 值
         string findkey = p[0] + key + "</span>";  //最终替换部分
         int fk = content.IndexOf(findkey);
         if (fk != -1)
         {
             for (int i = 1; i <= findkey.Length; i++)
             {
                 foreach (string kv in vstyle.Split(';'))
                 {
                     string[] style = kv.Split(':');
                     if (style[0] == "color")
                     {
                         chars[fk + i].Font.Color =(Word.WdColor)ColorTranslator.ToOle(ColorTranslator.FromHtml(style[1]));
                                        // 获取ARGB值
                     }
                     else if(style[0]== "font-weight")
                     {
                         if (style[1] == "bold") {
                             chars[fk + i].Font.Bold=1;
                         }
                     }
                     else if (style[0] == "font-family")
                     {
                         chars[fk + i].Font.Name=style[1];
                     }
                 }
              }
          fnd.ClearFormatting();
          Object findText = findkey;
          Object matchCase = false; Object matchWholeWord = Type.Missing; Object matchWildcards = false; Object matchSoundsLike = false; Object matchAllWordForms = false;
          Object forward = true; Object wrap = Word.WdFindWrap.wdFindContinue; Object format = false;
          Object replaceWith = vkey;
          Object replace = Word.WdReplace.wdReplaceAll; Object matchKashida = Type.Missing; Object matchDiacritics = Type.Missing; Object matchAlefHamza = Type.Missing; Object matchControl = Type.Missing;
          fnd.Execute(ref findText, ref matchCase, ref matchWholeWord, ref matchWildcards, ref matchSoundsLike, ref matchAllWordForms,ref forward, ref wrap, ref format, ref replaceWith, ref replace, ref matchKashida, ref matchDiacritics, ref matchAlefHamza, ref matchControl);
          content = chars.Parent.Text;
         }
      }
   }
}

小结

1、示例代码只是简单的处理了字体颜色、加粗和字体名称三项,我们可以根据实际需要扩展处理。

2、字体颜色请参照十六进制表示输入(如 #00ff00)。

3、示例代码中 Word 表示 using Word=Microsoft.Office.Interop.Word; 的引用。

示例代码我们提供了操作的关键方法,这里仅作参考,欢迎大家评论指教提供更好的解决方案!

相关推荐
SweetCode15 小时前
【无标题】
开发语言·c++·算法
shughui15 小时前
Python基础面试题:语言定位+数据类型+核心操作+算法实战(含代码实例)
开发语言·python·算法
No0d1es15 小时前
2025年12月电子学会青少年软件编程Python六级等级考试真题试卷
开发语言·python·青少年编程·等级考试·电子学会
zlp199215 小时前
xxl-job java.sql.SQLException: interrupt问题排查(二)
java·开发语言
superman超哥15 小时前
Rust HashSet与BTreeSet的实现细节:集合类型的底层逻辑
开发语言·后端·rust·编程语言·rust hashset·rust btreeset·集合类型
浩瀚地学15 小时前
【Java】异常
java·开发语言·经验分享·笔记·学习
张np15 小时前
java基础-LinkedHashMap
java·开发语言
gihigo199815 小时前
基于MATLAB的周期方波与扫频信号生成实现(支持参数动态调整)
开发语言·matlab
行者9615 小时前
Flutter适配OpenHarmony:国际化i18n实现中的常见陷阱与解决方案
开发语言·javascript·flutter·harmonyos·鸿蒙
csbysj202015 小时前
RSS 阅读器:全面解析与使用指南
开发语言