【工具】arxiv_latex_cleaner 去除latex注释

https://github.com/google-research/arxiv-latex-cleaner/issues/24

文章目录

注意:需要创建python==3.9的环境

1.修改编码

官方提供的arxiv_latex_cleaner的编码格式是有问题的,见这里。这个有位朋友说需要改成utf-8,但是还是报错

bash 复制代码
  File "D:\Env\anaconda\envs\arxiv_clean\lib\codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 706: invalid start byte

原因是我的windows电脑采用的是ISO-8859-1编码,所以需要对代码做如下修改

python 复制代码
def _read_file_content(filename):
    with open(filename, 'r', encoding='ISO-8859-1') as fp:
        lines = fp.readlines()
        lines = _strip_tex_contents(lines, '\\end{document}')
        return lines

修改完成后再安装

2.如何安装

2.1.打包

bash 复制代码
tar -zcvf 给打包的文件起个名字呗.tar.gz   文件包在的目录

比如:tar -zcvf arxiv-latex-cleaner.tar.gz arxiv-latex-cleaner

2.2.安装

bash 复制代码
pip install /path/to/package.tar.gz

3.测试功能

直接cd到指定的.tex目录下

bash 复制代码
arxiv_latex_cleaner ./
相关推荐
小oo呆1 分钟前
【自然语言处理与大模型】向量数据库技术
数据库·人工智能·自然语言处理
RuizhiHe2 分钟前
从零开始实现大语言模型(十五):并行计算与分布式机器学习
人工智能·chatgpt·llm·大语言模型·deepseek·从零开始实现大语言模型
水花花花花花5 分钟前
NLP基础
人工智能·自然语言处理
Tiny番茄6 分钟前
Text models —— BERT,RoBERTa, BERTweet,LLama
人工智能·自然语言处理·bert
苹果企业签名分发11 分钟前
火山引擎AI大模型
人工智能
久邦科技14 分钟前
《Deepseek从入门到精通》清华大学中文pdf完整版
人工智能·深度学习·机器学习
来自于狂人23 分钟前
给大模型“贴膏药”:LoRA微调原理说明书
人工智能·深度学习·transformer
love530love30 分钟前
【笔记】记一次PyCharm的问题反馈
ide·人工智能·windows·笔记·python·pycharm
说私域1 小时前
基于开源AI智能名片链动2+1模式S2B2C商城小程序源码的去中心化商业扩散研究
人工智能·小程序·开源·去中心化·零售
Johny_Zhao2 小时前
Vmware workstation安装部署微软WSUS服务应用系统
网络·人工智能·网络安全·信息安全·云计算·系统运维·wsus