【工具】arxiv_latex_cleaner 去除latex注释

https://github.com/google-research/arxiv-latex-cleaner/issues/24

文章目录

注意:需要创建python==3.9的环境

1.修改编码

官方提供的arxiv_latex_cleaner的编码格式是有问题的,见这里。这个有位朋友说需要改成utf-8,但是还是报错

bash 复制代码
  File "D:\Env\anaconda\envs\arxiv_clean\lib\codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 706: invalid start byte

原因是我的windows电脑采用的是ISO-8859-1编码,所以需要对代码做如下修改

python 复制代码
def _read_file_content(filename):
    with open(filename, 'r', encoding='ISO-8859-1') as fp:
        lines = fp.readlines()
        lines = _strip_tex_contents(lines, '\\end{document}')
        return lines

修改完成后再安装

2.如何安装

2.1.打包

bash 复制代码
tar -zcvf 给打包的文件起个名字呗.tar.gz   文件包在的目录

比如:tar -zcvf arxiv-latex-cleaner.tar.gz arxiv-latex-cleaner

2.2.安装

bash 复制代码
pip install /path/to/package.tar.gz

3.测试功能

直接cd到指定的.tex目录下

bash 复制代码
arxiv_latex_cleaner ./
相关推荐
XIAO·宝28 分钟前
机器学习----绪论
人工智能·机器学习
41号学员28 分钟前
机器学习绪论
人工智能·机器学习
华清远见成都中心30 分钟前
基于深度学习的异常检测算法在时间序列数据中的应用
人工智能·深度学习·算法
一车小面包2 小时前
机器学习中数据集的划分难点及实现
人工智能·深度学习·机器学习
R-G-B3 小时前
【P27 4-8】OpenCV Python——Mat类、深拷贝(clone、copyTo、copy)、浅拷贝,原理讲解与示例代码
人工智能·python·opencv·浅拷贝·深拷贝·opencv python·mat类
ABCDnnie3 小时前
机器学习03-sklearn模型评估指标与knn算法
人工智能·机器学习·sklearn
黎燃3 小时前
智能制造中的AI预测性维护:从理论到实战的深度解析
人工智能
zskj_zhyl3 小时前
银发经济时代:科技赋能养老,温情守护晚年,让老人不再孤独无助
大数据·人工智能·科技·生活
Qforepost3 小时前
智汇河套,量子“风暴”:量子科技未来产业发展论坛深度研讨加速产业成果转化
人工智能·量子计算·量子
coding者在努力4 小时前
从零开始:用PyTorch实现线性回归模型
人工智能·pytorch·线性回归