①首先登录进入某云算力平台,申请资源,打开交互式界面
②上传自己的项目文件在/home/u********/路径下(数据文件放到my_files/records这个文件夹,),并在其中单独新建一个文件夹用于保存项目文件
③然后进入终端,创建虚拟环境,并为对应的虚拟环境下载合适的Python解释器版本,然后激活该环境,cd到对应项目文件夹中,运行和安装相应的依赖包即可
整个流程需要用到的指令代码:
python# 在 Terminal 执行 conda create -n proj python=3.10 ipykernel -y source activate proj # 激活 pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com cd /home/u*******/ conda install 相应的依赖包 加镜像链接 python 相应文件.py #运行对应的py文件 # 由于会出现其mineru指令不存在的问题 pip install -U "mineru[core]" mineru --help wget https://github.com/opendatalab/MinerU/raw/master/scripts/download_models_hf.py -o download_models_hf.py最新使用的是处理PDF转json的项目,项目位于数据分析3这个资源下,其项目为M开头的。
这个项目需要安装一个国内镜像加速下载的库(pip install huggingface_hub)否则容易报错,并且考虑到一条条输入指令的麻烦性,写了一个自动指令输入的指令代码:
最终直接运行这个python文件即可
pythonimport os import subprocess def simple_batch(): """最简单的批量处理 - 直接在终端显示命令和输出""" input_folder = "/home/u*********/M**********/my_file/records/" output_base = "/home/u********/M***********/output/" # 获取所有PDF文件 pdf_files = [f for f in os.listdir(input_folder) if f.lower().endswith('.pdf')] if not pdf_files: print("❌ 未找到PDF文件") return print(f"📁 找到 {len(pdf_files)} 个PDF文件\n") for i, pdf_file in enumerate(pdf_files, 1): input_path = os.path.join(input_folder, pdf_file) output_path = os.path.join(output_base, pdf_file.replace('.pdf', '')) # 构建命令 cmd = f'm***** -p "{input_path}" -o "{output_path}"' print(f"🚀 执行命令 [{i}/{len(pdf_files)}]:") print(f" {cmd}") print("-" * 80) # 直接执行,输出到终端 return_code = subprocess.call(cmd, shell=True) if return_code == 0: print("✅ 完成\n") else: print(f"❌ 失败 (返回码: {return_code})\n") if __name__ == "__main__": simple_batch()
使用某云超算平台Jupyterlab的使用方法(自用)
爱吃泡芙的小白白2025-11-22 16:23
相关推荐
亓才孓1 分钟前
[Properties]写配置文件前,必须初始化Properties(引用变量没执行有效对象,调用方法会报空指针错误)Lsir10110_1 分钟前
【Linux】进程信号(下半)Bruk.Liu6 分钟前
(LangChain 实战14):基于 ChatMessageHistory 自定义实现对话记忆功能skywalk816317 分钟前
unbound dns解析出现问题,寻求解决之道酉鬼女又兒19 分钟前
零基础入门Linux指南:每天一个Linux命令_pwd大江东去浪淘尽千古风流人物21 分钟前
【VLN】VLN(Vision-and-Language Navigation视觉语言导航)算法本质,范式难点及解决方向(1)云飞云共享云桌面21 分钟前
高性能图形工作站的资源如何共享给10个SolidWorks研发设计用Swift社区22 分钟前
Gunicorn 与 Uvicorn 部署 Python 后端详解skywalk816323 分钟前
走近科学:unbound dns域名服务器自己本地解析出现问题,寻求解决之道choke23323 分钟前
Python 基础语法精讲:数据类型、运算符与输入输出