使用某云超算平台Jupyterlab的使用方法(自用)

①首先登录进入某云算力平台,申请资源,打开交互式界面

②上传自己的项目文件在/home/u********/路径下(数据文件放到my_files/records这个文件夹,),并在其中单独新建一个文件夹用于保存项目文件

③然后进入终端,创建虚拟环境,并为对应的虚拟环境下载合适的Python解释器版本,然后激活该环境,cd到对应项目文件夹中,运行和安装相应的依赖包即可

整个流程需要用到的指令代码:

python 复制代码
# 在 Terminal 执行
conda create -n proj python=3.10 ipykernel -y
source activate proj            # 激活

pip install -U "magic-pdf[full]" --extra-index-url https://wheels.myhloli.com

cd /home/u*******/
conda install 相应的依赖包 加镜像链接

python 相应文件.py  #运行对应的py文件


# 由于会出现其mineru指令不存在的问题
pip install -U "mineru[core]"
mineru --help

wget https://github.com/opendatalab/MinerU/raw/master/scripts/download_models_hf.py -o download_models_hf.py

最新使用的是处理PDF转json的项目,项目位于数据分析3这个资源下,其项目为M开头的。

这个项目需要安装一个国内镜像加速下载的库(pip install huggingface_hub)否则容易报错,并且考虑到一条条输入指令的麻烦性,写了一个自动指令输入的指令代码:

最终直接运行这个python文件即可

python 复制代码
import os
import subprocess


def simple_batch():
	"""最简单的批量处理 - 直接在终端显示命令和输出"""
	
	input_folder = "/home/u*********/M**********/my_file/records/"
	output_base = "/home/u********/M***********/output/"
	
	# 获取所有PDF文件
	pdf_files = [f for f in os.listdir(input_folder) if f.lower().endswith('.pdf')]
	
	if not pdf_files:
		print("❌ 未找到PDF文件")
		return
	
	print(f"📁 找到 {len(pdf_files)} 个PDF文件\n")
	
	for i, pdf_file in enumerate(pdf_files, 1):
		input_path = os.path.join(input_folder, pdf_file)
		output_path = os.path.join(output_base, pdf_file.replace('.pdf', ''))
		
		# 构建命令
		cmd = f'm***** -p "{input_path}" -o "{output_path}"'
		
		print(f"🚀 执行命令 [{i}/{len(pdf_files)}]:")
		print(f"   {cmd}")
		print("-" * 80)
		
		# 直接执行,输出到终端
		return_code = subprocess.call(cmd, shell=True)
		
		if return_code == 0:
			print("✅ 完成\n")
		else:
			print(f"❌ 失败 (返回码: {return_code})\n")


if __name__ == "__main__":
	simple_batch()
相关推荐
西格电力科技15 小时前
面向工业用户的绿电直连架构适配技术:高可靠与高弹性的双重设计
大数据·服务器·人工智能·架构·能源
小裴(碎碎念版)15 小时前
文件读写常用操作
开发语言·爬虫·python
TextIn智能文档云平台15 小时前
图片转文字后怎么输入大模型处理
前端·人工智能·python
ujainu15 小时前
Python学习第一天:保留字和标识符
python·学习·标识符·保留字
CodeCraft Studio15 小时前
用“录制宏”轻松实现文档自动化:ONLYOFFICE 宏功能实践解析
运维·自动化·onlyoffice·录制宏·创建宏·文档自动化·文档协同
studytosky15 小时前
深度学习理论与实战:反向传播、参数初始化与优化算法全解析
人工智能·python·深度学习·算法·分类·matplotlib
广东大榕树信息科技有限公司16 小时前
当运维管理面临挑战时,如何借助动环监控系统提升响应能力?
运维·网络·物联网·国产动环监控系统·动环监控系统
The star"'16 小时前
02-Ansible 基本使用
运维·云计算·ansible
清水白石00816 小时前
《Python × 数据库:用 SQLAlchemy 解锁高效 ORM 编程的艺术》
开发语言·python·json
wanhengidc16 小时前
巨 椰 云手机 满足多元需求
运维·服务器·安全·智能手机·云计算