字体反爬之自动化通过字体文件生成映射字典

1、首先找到以.ttf结尾的字体文件,下载下来,以我的字体文件sfont.ttf为例

sont.ttf下载地址https://download.csdn.net/download/lingyingdon/89534953

目前只测试了.ttf文件。如果想使用woff字体文件,请自行测试

2、下载分割字体文件的软件fontforge, 安装后将安装路径添加到环境变量中去,该软件结合python脚本分割字体文件为单个字体图片及其对应的编码作为文件名

  • 官网地址如下

    https://fontforge.org/en-US/

  • python脚本如下split_font.py

    复制代码
    import os
    import argparse
    import sys
    
    import fontforge
    
    
    def main(font_path, folder):
        # 字体文件分割脚本,需要配合fontforge使用
        # font_path = r"F:\download\sfont.ttf"  # 字体文件路径
        # folder = "img"  # 字体文件分割后保存的目录
        F = fontforge.open(font_path)
        for name in F:
            filename = name + ".png"
            export_path = os.path.join(folder, filename)
            F[name].export(export_path)
            
    if __name__ == '__main__':
    
        parser = argparse.ArgumentParser(description='字体分割.....')
        parser.add_argument('-f', '--file_path', type=str, help='字体文件路径,字体文件为.ttf结尾')
        parser.add_argument('-d', '--dir', type=str, help='输出字体文件目录')
    
        args = parser.parse_args()
        if args.file_path and args.dir:
            main(args.file_path, args.dir)
        else:
            print("请输入字体文件路径和输出字体文件目录")
            sys.exit(1)
  • 通过执行以下命令脚本分割字体文件(前提是将fontforge添加到环境变量)

    fontforge split_font.py

  • 处理后的图片如下

3、由于分割后的字体文件相对比较模糊,通过使用pillow模块扩张字体图片大小来增加图片的清晰度

复制代码
def strength_pic(pic_path):
    """
    图片增强
    猜想是,在进行卷积处理的时候,选择的算子在边界处理上更倾向于重新计算,而实际上我们的边界是不需要计算的,所以这里手动将边界扩张
    """

    old_im = Image.open(pic_path)
    old_size = old_im.size

    new_size = (300, 300)
    new_im = Image.new("RGB", new_size, color='white')  ## luckily, this is already black!
    new_im.paste(old_im, (int((new_size[0] - old_size[0]) / 2),
                          int((new_size[1] - old_size[1]) / 2)))

    new_im.save(pic_path.replace('img', 'img_output'))
  • 经过处理后的图片如下

4、使用ddddocr模块来识别字体图片

复制代码
def ocr_img(ocr, file_path):
    """
    使用ddddocr模块识别
    :param ocr:  ddddocr实例化对象
    :param file_path:  图片文件路径
    :return:  识别结果
    """
    image = open(file_path, "rb").read()
    result = ocr.classification(image)
    return result

5、最后来看一下运行结果,全自动执行,不需要在一个一个整理字体字典了(我这里在代码中用&#x对uni进行了替换)

想要完整代码的联系fangyingdon@163.com

相关推荐
守城小轩3 小时前
基于Chrome140的Yahoo自动化(关键词浏览)——需求分析&环境搭建(一)
运维·自动化·chrome devtools·浏览器自动化·指纹浏览器·浏览器开发
chaofan9805 小时前
2026年大模型接入实测:高并发场景下企业级API网关横向对比与选型指南
人工智能·gpt·自动化·api
舟遥遥娓飘飘6 小时前
如何解决 Claude Code 频繁授权(权限请求)问题
自动化·ai编程
V搜xhliang02466 小时前
OpenClaw科研全场景用法:从文献到实验室的完整自动化方案
运维·开发语言·人工智能·python·算法·microsoft·自动化
liangdabiao8 小时前
乐高摩托车深度报告-致敬张雪夺冠 -基于llm-wiki技术自动化写文章的效果
运维·人工智能·自动化
测试那点事儿9 小时前
第10章 零基础接口自动化到 Jenkins 持续集成【定时监控与邮件告警完整落地】
ci/cd·自动化·jenkins
Python大数据分析@9 小时前
浏览器自动化工具 Selenium,Playwright,Puppeteer 做爬虫有哪些弊病?
爬虫·selenium·自动化
剑神一笑10 小时前
从零开始理解 robots.txt:搜索引擎爬虫的“门禁系统“
爬虫·搜索引擎
qq_4542450310 小时前
从 UI 操作到环境交互:一种通用元命令自动化协议的设计与意义
人工智能·ui·自动化·交互
weixin_3077791310 小时前
云计算大数据Azure服务分类详解
大数据·分类·自动化·云计算·azure