Sophnet介绍及云空间申请使用
1 Sophnet简介
1.1 Sophnet是什么
SOPHNET 平台是基于SOPHON智算产品打造的云边统一的AI服务平台,是人工智能算力中心的基础设施,平台通过开放AI训练和AI推理两大核心能力,赋能千行百业。
1.2 Sophnet设计理念
在算力层通过异构的AI算力服务器(云/边),构建算力资源池,在算法层引入不同生态伙伴的算法,形成算法资源池,在平台层支持算力的接入和虚拟化,算法的统一纳管和开放,通过AI训练平台和AITOOL支撑算法的迭代更新,实现训推一体的闭环,通过平台层开放的AI能力,实现应用的不断丰富、成长、创新。
1.3 Sophnet特性
灵活接入
支持通过K8S、K3S、KubeEdge标准方式接入云侧和边缘侧的各种算力设备,同时也支持通过自研的SSM接入异构的算力设备。
算力设备虚拟化
支持算力设备虚拟化,以裸金属云主机、虚拟机云主机、Docker容器云主机的形式提供AI算力基础设施开放。以Docker容器方式提供的云主机算力绑定灵活,既支持一个云主机绑定多颗芯片的算力,也支持多个云主机共享一颗芯片的算力。
平台提供丰富的云主机操作接口,包括云主机的资源列表、云主机的重置、云主机的应用部署、云主机的状态通知等,以满足上层SAAS平台或PAAS平台的应用需求。
标准的AI算法仓
提供算法包入仓的统一标准,支持多厂家、多类型的算法包/模型管理功能。提供算法服务接口的统一标准,方便业务应用层的对接。支持源于训练平台/第三方算法仓的算法模型的导入,实现训推闭环。
云边协同,多级组网
支持边缘算力,多级汇聚算力,中心算力,通过级联组网,支持构建全网算力架构。
多层次开放
平台多层次开放,支持不同模式与第三方集成。SAAS层逐步开放源代码。PAAS层开放任务调度API接口。 接口包括结构化任务、行为分析任务、人脸识别任务、全结构化任务创建、删除、状态查询等功能。开放算法仓操作的API接口。 接口包括算法资源列表获取、算法包部署、算法包删除、算法包操作通知等功能。IAAS层开放云主机操作的API接口。接口包括云主机列表、云主机重置、云主机账户修改、应用部署、应用删除等功能。算力层开放算力设备之上自研的算力代理服务( SSM )API接口。接口包括算力的发现、资源收集、应用部署、外网穿透等功能。
满足公安规范的视图库
深耕公安视频结构化应用场景,符合一系列公安合规及安全性标准,提供公安业务应用中台支撑,系统针对不同应用可以映射到不同的视图库,支持视图库的物理多租。
便捷的运维管理
图形化管理算力设备、算法等信息,支持视频资源的维护、巡检,保证输入视频质量,且能通过完善的资源监控、告警推送等功能,方便客户随时了解系统运行情况。同时完整的日志以及任务生命周期记录方便异常问题的排查与定位。
2 Sophnet部署形态
2.1 敏捷化部署
采用智能分析一体机,实战业务(可选)、 SOPHNET平台以及分析算法直接部署在一体机设备上,无其他额外配置。适用于对算力需求较少的小型化局点,PoC局点,方案配置简洁,方便快速交付。
2.2 全栈式中心部署
该模式为算力中心标准化部署模式。SOPHNET平台以及实战业务部署于算力服务器,分析算法部署于算力服务器,分析结果存于中心数据库。适用于对算力有较高需求且预算充裕的区县或地市级私有云算力中心局点。
2.3 分域部署
该模式秉承算力逐级建设的思路,除完整的中心算力平台之外,各分域都建设了自有的算力分析能力。同时,各分域仍需要在中心平台上完成实战业务操作。适用于摄像头集中在多个物理地点,而业
务需要集中呈现的场景。该模式极大降低了网络传输压力,减少了交付成本。也可以用于边缘设备接入管理的场景。
2.4 分级部署
该模式为标准算力中心分级部署场景。除完整的中心算力平台之外,还包含若干各同样功能晚上的分中心。其唯一区别在于中央中心包含各分中心的业务数据。适用对算力有较高需求其预算充裕的省、市级算力中心局点。各分中心数据向上汇聚,同时在各级中心都具备业务能力。
3 Sophnet典型应用场景
3.1 AI算力资源池
可满足AI 智算设备(云/边)的接入以及集群管理的需求,以及基于算丰系列AI智算设备的算力虚拟化及云主机开放的需求。此场景SophNet提供IAAS层能力,上层开发者可通过SophNet IAAS层
OPEN API搭建PAAS层和SAAS层平台。实际部署,根据可靠性要求,需要1-2台PC Server。
3.2 AI算法仓
在AI算力资源池基础之上,建设AI算法仓。通过对多类型、多厂商算法的提供统一的纳管标准,支撑算法资源池的不断扩充,从而支撑应用的不断成长。此场景SophNet提供PAAS层能力,上层
开发者可通过SophNet PAAS层OPEN API搭建SAAS层平台。实际部署,根据可靠性要求,需要1-2台PC Server。
3.3 AI简单业务应用
在AI算法仓之上,建设AI简单业务应用平台,如布控、以图搜图等特性功能;此场景SophNet 提供了AI算力资源池、AI算法仓、AI简单业务应用平台、AI运维平台等全栈子系统模块,支持数据接入公安视频图像的综合业务平台。实际部署,根据可靠性要求及数据承载量,做分布式部署,需要数台PC Server。
3.4 AI训推一体
在AI算法仓之上(可携带AI简单业务应用)搭载AI训练平台。针对某些非标准场景,通过AI训练平台生态环境下的算法训练和模型迭代,并与AI算法仓打通,实现从训练到推理的完整闭环,有效提高算法精度。实际部署,根据业务规模需求,通过1台或者数台PCServer实现部署。
4 Sophnet云空间申请
Sophnet-云开发空间提供基于算丰智算产品的标准云开发与测试空间,为开发者在线提供⼀站式开发⽀撑,帮助开发者快速开发。
Sophnet-云开发空间⽬前提供七类云空间:BM1684-PCIE通⽤云开发空间、BM1684X通用云开发空间、SE5-16微服务器云测试空间、TPU编程⼤赛云开发、Ubuntu云桌⾯空间,ROS&SciLab云桌⾯空间。
4.1 平台登陆
开发者可通过算能官⽹https://www.sophgo.com或直接访问https://sophnet.com登陆云空间服务,登陆⽤户名密码与在算能官⽹注册的开发者⽤户名密码⼀致。
4.2 云空间申请
云空间申请分为个人申请和团队申请。
个人申请
以BM1684-PCIE通用云开发空间为例,该云空间默认搭载3颗1684芯,操作系统为Ubuntu 20.04 64位,内置算能SDK包。
第一步:点击个人申请。
第二步:填写申请信息,可根据需求选择使用时长。
第三步:等待管理员审批,可以在我的工作台查看申请进度。
注:第一次申请时需完善个人信息。
团队申请
以申请⼀定数量的SE5-16云开发空间为例。
第一步:点击"团队申请",弹出团队云空间申请弹窗,⽤户填写团队名称、申请时间、申请数量、选择是否⾃动审核(若勾选是,则团队成员申请⾃动审核通过)推荐勾选、选择是否同步空间(若勾选是,则⾃动同步⼀份空间给团队申请⼈)推荐勾选、填写申请⽤途。
第二步:点击"提交",需要等待平台管理员审核,卡⽚左上⻆显示的是⽬前分配出去的团队成员空间数量和总的团队空间数量。
第三步:当团队空间审核通过后,会收到邀请码,可在"我的⼯作台-站内信"查看,若未找到,请联系管理员或销售代表。并将该邀请码分享给需要申请空间的团队成员。
第四步:团队成员拿到邀请码后,登录云平台,进⼊"云空间申请",点击右上⽅"邀请码通道",填写邀请码快速申请团队成员空间。
点击"提交"后,需要等待团队管理员审核,⽤户可以在"我的⼯作台"中查看当前申请空间的审批状态。
5 Sophnet云空间基本使用
5.1 登录云空间
web终端登录
将⿏标移⾄"进⼊空间"上⽅,会在当前⻚⾯弹出⼀个⼩窗⼝。点击"云空间Web终端"链接,会⾃动弹出新的web窗⼝并进⼊云主机。进⼊云主机后,云主机的⽤户使⽤⽅式与物理机完全⼀致。
本地终端登录
开发者也可以通过本地终端直接进⼊云主机:点击"复制SSH登录命令"按钮,会将SSH登录命令复制到剪贴板;在任意终端黏贴登录命令并回⻋,会提示输⼊登录密码;此时点击"复制SSH登录密码"按钮,黏贴⾄终端并确认,则会顺利登⼊云主机。
登录成功如下图所示。
5.2 文件传输
如果⽤户需要在云空间主机与本地之间进⾏⽂件传输,可以点击"云空间⽂件系统"链接,进⼊⽂件传输与管理⼯作台。⽂件管理⼯作台操作的云空间主机⽬录默认是在/tmp下⾯,⼯作台提供了新建、删除、剪切、复制⽂件或⽂件夹的功能。
如果要将本地⽂件上传到云空间,可以在右侧云⼯作空间点击右键,选择上传⽂件。
在弹出的上传⽂件弹出框中,将要上传的本地⽂件拖拽进去即启动上传,要注意的是,应尽量避免上传超⼤型⽂件,为防⽌恶意攻击,平台会对普通⽤户的上传速度及上传流量做⼀定限制。
需要下载云空间文件时,选中要下载的⽂件,点击右键,选择下载。
5.3 PCIE云空间驱动挂载
开发者在第⼀次登录分配的PCIE云开发空间主机后,需要⼿动挂载⼀下TPU驱动,步骤如下:
第一步:开发者可以通过下列命令查看空间内已分配的TPU资源,正常情况下,⽤户可以看到空间内挂载有3颗BM1684TPU资源。(如未分配到资源,请直接联系技术服务⼈员。)
jsx
lspci | grep 1684
第二步:安装TPU驱动。
jsx
cd /home/sophgo/xxx/scripts/
sudo ./install_driver_pcie.sh
xxx处为内置SDK包目录
第三步:完成驱动程序安装后,通过如下命令检查驱动安装是否成功。
jsx
source envsetup_pcie.sh
bm-smi
如下图所示表示安装成功。
完成云空间驱动挂载(只针对分配了TPU的测试空间)后,⽤户即可进⾏基于SOPHON TPU加速的相关开发与测试⼯作。