【工具】arxiv_latex_cleaner 去除latex注释

https://github.com/google-research/arxiv-latex-cleaner/issues/24

文章目录

注意:需要创建python==3.9的环境

1.修改编码

官方提供的arxiv_latex_cleaner的编码格式是有问题的,见这里。这个有位朋友说需要改成utf-8,但是还是报错

bash 复制代码
  File "D:\Env\anaconda\envs\arxiv_clean\lib\codecs.py", line 322, in decode
    (result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xa1 in position 706: invalid start byte

原因是我的windows电脑采用的是ISO-8859-1编码,所以需要对代码做如下修改

python 复制代码
def _read_file_content(filename):
    with open(filename, 'r', encoding='ISO-8859-1') as fp:
        lines = fp.readlines()
        lines = _strip_tex_contents(lines, '\\end{document}')
        return lines

修改完成后再安装

2.如何安装

2.1.打包

bash 复制代码
tar -zcvf 给打包的文件起个名字呗.tar.gz   文件包在的目录

比如:tar -zcvf arxiv-latex-cleaner.tar.gz arxiv-latex-cleaner

2.2.安装

bash 复制代码
pip install /path/to/package.tar.gz

3.测试功能

直接cd到指定的.tex目录下

bash 复制代码
arxiv_latex_cleaner ./
相关推荐
飞哥数智坊6 小时前
我的“龙虾”罢工了!正好对比下GLM、MiniMax、Kimi 3家谁更香
人工智能
风象南7 小时前
很多人说,AI 让技术平权了,小白也能乱杀老师傅 ?
人工智能·后端
董董灿是个攻城狮8 小时前
大模型连载1:了解 Token
人工智能
RoyLin10 小时前
沉睡三十年的标准:HTTP 402、生成式 UI 与智能体原生软件的时代
人工智能
needn12 小时前
TRAE为什么要发布SOLO版本?
人工智能·ai编程
毅航12 小时前
自然语言处理发展史:从规则、统计到深度学习
人工智能·后端
前端付豪13 小时前
LangChain链 写一篇完美推文?用SequencialChain链接不同的组件
人工智能·python·langchain
ursazoo13 小时前
写了一份 7000字指南,让 AI 帮我消化每天的信息流
人工智能·开源·github
_志哥_17 小时前
Superpowers 技术指南:让 AI 编程助手拥有超能力
人工智能·ai编程·测试
YongGit17 小时前
OpenClaw 本地 AI 助手完全指南:飞书接入 + 远程部署实战
人工智能