【工具】arxiv_latex_cleaner 去除latex注释

https://github.com/google-research/arxiv-latex-cleaner/issues/24

文章目录

注意:需要创建python==3.9的环境

1.修改编码

官方提供的arxiv_latex_cleaner的编码格式是有问题的,见这里。这个有位朋友说需要改成utf-8,但是还是报错

bash 复制代码
  File "D:\Env\anaconda\envs\arxiv_clean\lib\codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 706: invalid start byte

原因是我的windows电脑采用的是ISO-8859-1编码,所以需要对代码做如下修改

python 复制代码
def _read_file_content(filename):
    with open(filename, 'r', encoding='ISO-8859-1') as fp:
        lines = fp.readlines()
        lines = _strip_tex_contents(lines, '\\end{document}')
        return lines

修改完成后再安装

2.如何安装

2.1.打包

bash 复制代码
tar -zcvf 给打包的文件起个名字呗.tar.gz   文件包在的目录

比如:tar -zcvf arxiv-latex-cleaner.tar.gz arxiv-latex-cleaner

2.2.安装

bash 复制代码
pip install /path/to/package.tar.gz

3.测试功能

直接cd到指定的.tex目录下

bash 复制代码
arxiv_latex_cleaner ./
相关推荐
song150265372981 分钟前
全检垫圈垫片 视觉检测设备 在线自动化瑕疵检测机
人工智能·自动化·视觉检测
song150265372986 分钟前
铜鼻子冷压端子视觉检测机 尺寸外观瑕疵自动化检测设备
人工智能·自动化·视觉检测
wzx_Eleven11 分钟前
【论文阅读】AAAI 2025 | 面向精确分割式联邦学习的多模型聚合与知识重放
论文阅读·人工智能·机器学习
Zack_Liu11 分钟前
LSS论文阅读
论文阅读·人工智能·目标跟踪
张较瘦_14 分钟前
[论文阅读] AI + Debug | 基于大语言模型的GitHub故障复现测试用例生成方法解析
论文阅读·人工智能·语言模型
Small___ming14 分钟前
【论文笔记】扩散模型——如何通俗理解传统概率模型的核心矛盾
论文阅读·人工智能·扩散模型·生成式人工智能
时序之心14 分钟前
时序论文速递:覆盖时间序列预测、分类、异常检测及交叉应用!(10.20-10.24)
人工智能·分类·数据挖掘·论文·时间序列
会笑的小熊17 分钟前
论文阅读笔记——数据增强
人工智能·计算机视觉
张较瘦_19 分钟前
[论文阅读] AI + 软件工程 | 从“能用”到“耐用”:LLM生成软件的老化陷阱与研究突破
论文阅读·人工智能·软件工程
美团技术团队29 分钟前
LongCat-Video 视频生成模型正式发布,探索世界模型的第一步
人工智能