【工具】arxiv_latex_cleaner 去除latex注释

https://github.com/google-research/arxiv-latex-cleaner/issues/24

文章目录

注意:需要创建python==3.9的环境

1.修改编码

官方提供的arxiv_latex_cleaner的编码格式是有问题的,见这里。这个有位朋友说需要改成utf-8,但是还是报错

bash 复制代码
  File "D:\Env\anaconda\envs\arxiv_clean\lib\codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 706: invalid start byte

原因是我的windows电脑采用的是ISO-8859-1编码,所以需要对代码做如下修改

python 复制代码
def _read_file_content(filename):
    with open(filename, 'r', encoding='ISO-8859-1') as fp:
        lines = fp.readlines()
        lines = _strip_tex_contents(lines, '\\end{document}')
        return lines

修改完成后再安装

2.如何安装

2.1.打包

bash 复制代码
tar -zcvf 给打包的文件起个名字呗.tar.gz   文件包在的目录

比如:tar -zcvf arxiv-latex-cleaner.tar.gz arxiv-latex-cleaner

2.2.安装

bash 复制代码
pip install /path/to/package.tar.gz

3.测试功能

直接cd到指定的.tex目录下

bash 复制代码
arxiv_latex_cleaner ./
相关推荐
mit6.82410 分钟前
[AI OS] 重新定义人机交互未来
人工智能·人机交互
初学大模型21 分钟前
机器人原生感知系统设计
人工智能·机器人
人工智能培训23 分钟前
深度学习—卷积神经网络(3)
人工智能·深度学习·神经网络·机器学习·cnn·智能体
weixin_4787963427 分钟前
kinghelm品牌的产品
人工智能·硬件工程·射频工程
wxl78122729 分钟前
Cognee API 完整使用文档(含分类、调用顺序、curl 示例、文件样本、一键脚本及异常码)
人工智能·congee0.5.1
小CC吃豆子38 分钟前
Adobe Premiere Pro 2024 (pr) 剪辑软件剪辑 + 调色 + 导出全攻略下载安装教程
人工智能·语音识别
刘立军39 分钟前
本地大模型编程实战(39)MCP实战演练
人工智能·后端·mcp
q_302381955643 分钟前
RK3588 + YOLOv8 田块分割实战指南:从环境搭建到部署落地全流程
人工智能·单片机·深度学习·神经网络·物联网·yolo
marteker1 小时前
星巴克与「野兽先生」‌合作,助力亚马逊Prime Video竞技节目
人工智能
wenzhangli71 小时前
AI Coding落地困局破题:2025实战复盘与8步实施法的工程解法
人工智能