1,首先是确保自己能够登录:
内网lab
公网ip ssh
此处可以参考我的博客:https://blog.csdn.net/weixin_62528784/article/details/142345268?spm=1001.2014.3001.5501
2,现在自己能够通过各种手段(包括校园网vpn),在任意地点任意时刻登录服务器了,那么接下来要做的就是查看服务器的大致配置:
此处参考我的博客:https://blog.csdn.net/weixin_62528784/article/details/142183872?spm=1001.2014.3001.5501
(1)cpu信息:
8核8线程
勉勉强强,肯定是跑不了sc了(暂时还没有使用过跑任务,也许8线程虽然能够跑满但是依然很垃圾)
data:image/s3,"s3://crabby-images/5b1ec/5b1ecec59ee7feb2951545a28356f2c987429b54" alt=""
(2)内存:
可用内存40G左右,单细胞肯定也跑不了,其他小组学数据不是问题
data:image/s3,"s3://crabby-images/e7edb/e7edb2689bb9238230e80296a7ba44179303a1b6" alt=""
(3)硬盘disk:
主要是filesystem+mounted on:
也就是分区设备(物理设备)+文件挂载目录(虚拟设备)
进行解读:
data:image/s3,"s3://crabby-images/46a81/46a817846bb7e34541f31c7d3c0a02d5c564dab4" alt=""
目前博主自己暂时能够使用的分区是/dev/sda1以及sda2这两个盘,内存大概在3T左右,内存勉强够用(小数据hic够用),建议大数据hic在20T以上
(4)操作系统发行版本:
是centos系统
data:image/s3,"s3://crabby-images/74225/74225614e877196a657cfef07e9e7fe0d6b582cd" alt=""
data:image/s3,"s3://crabby-images/bc330/bc330e50d4f5c94cc44393d9797607cc34600fbd" alt=""
3,现在清楚了自己服务器的配置,明确了自己的设备只能跑跑小组学任务,有了这么一个底线基础,那么接下来的任务就是为服务器运行数据分析任务做准备,而数据处理的核心就是数据+软件,所以我们先处理好软件安装的问题,也就是环境管理+安装的问题:
安装conda,升级为mamba,作为环境管理工具------如下:
安装conda时建议安装miniconda(之前使用过miniconda3),参考https://docs.anaconda.com/miniconda/
data:image/s3,"s3://crabby-images/91e5f/91e5f7f32de8cb28d28b13e9478f93515512c572" alt=""
之后conda升级mamba参考:https://bioconda.github.io/faqs.html
data:image/s3,"s3://crabby-images/15c4a/15c4ad06dca9e7bdfc139e9c72483eabf3f6974e" alt=""
当然上面安装mamba的流程已经out了,建议使用mamba官方安装步骤:
https://mamba.readthedocs.io/en/latest/installation/mamba-installation.html
(1)创建所需环境:
base不用
初始化环境为zht,注意在系统配置中修改,使得进入登入系统就进入该环境中
plain
vim ~/.bashrc #在适当位置,比如说末尾添加conda/mamba activate zht,这样每次打开1个shell session就是zht env,而不是base env
data:image/s3,"s3://crabby-images/50b10/50b10a3c3902dfc7c94fb41217d16a36021db6f9" alt=""
另外建立了1个新环境qc用于常规seq的质控处理等
当然这个过程中遇到了一些问题(一些以前从来没有遇到过,一些以前遇到过)
主要就是conda activate能够激活对应的环境,但是mamba activate经常报错需要mamba init
data:image/s3,"s3://crabby-images/9a202/9a202055d9c46684ef3774e17047e569a11c9a3c" alt=""
相关问题可以参考:https://github.com/mamba-org/mamba/issues/1718
data:image/s3,"s3://crabby-images/cd150/cd150da6095f1641c6b538d3fab168ccf545560b" alt=""
data:image/s3,"s3://crabby-images/28f78/28f78e6eef77bdec3a1769ed817b79799e62cb99" alt=""
data:image/s3,"s3://crabby-images/e8596/e8596223d4a2ae7f3fba26517d28e9dbe5b3753d" alt=""
data:image/s3,"s3://crabby-images/9ef95/9ef955a07488aee36487617654c0126c5d2d7cce" alt=""
所以仔细对照的话,似乎是可以在shell初始配置文件,也就是~/.bashrc中同样添加对应语句:
plain
source /home/bioinfor1/miniconda3/etc/profile.d/mamba.sh #同样在shell初始化中添加
或者是将conda中的这句:
data:image/s3,"s3://crabby-images/1a3b0/1a3b0f5c7b90f3f5fd2f475bf76dc21876fde7c1" alt=""
添加到mamba的初始化配置语句块中:
或者是添加这句:
下面进行测验:
没用
(相当于是同样添加)
data:image/s3,"s3://crabby-images/a4f71/a4f7194b1e113f10740f9bd77b922272c76febc0" alt=""
还是没用
data:image/s3,"s3://crabby-images/c7b4b/c7b4b135ca8cf3c0e33ccbb752b2c847cb94adde" alt=""
将上面conda中选中的语句复制粘贴到下面mamba中
data:image/s3,"s3://crabby-images/fe33d/fe33d983716120656ef25c3cd4108b38a5c84164" alt=""
成功了
但是带来的问题就是一切关于mamba的命令(除了activate env的命令还能使用),其他的命令都不能使用
data:image/s3,"s3://crabby-images/661a8/661a8f75bde101f019d351efe9b8eacd425b7c64" alt=""
另外还可以尝试将最上面代码块中的source xxx添加到对应的语句位置中
data:image/s3,"s3://crabby-images/6a0d7/6a0d71a60a81f383c85cd94c3ba22fdffdcd780e" alt=""
data:image/s3,"s3://crabby-images/e8118/e8118d3d9a0167b2ef681c951e1eb0e5218b3d6e" alt=""
还是不行
总之目前没有影响,安装mamba主要是为了加快安装软件速度,其他的用conda或者是mamba都可以
安装软件等用mamba,激活环境用conda
参考 https://github.com/idaholab/moose/discussions/24688
(2)配置频道:主要是bioconda
这个过程中可以配置bioconda频道:https://bioconda.github.io/
4,现在环境配置好了,基本的conda/mamba以及软件下载频道bioconda等也都有了,下一步就是安装常用的编程语言+对应的IDE
(1)首先是R:
zht环境中已经有了,当然其实也可以直接
plain
mamba search r-base #搜索最新版再下载,一般是conda-forge比bioconda版本更新快之类
data:image/s3,"s3://crabby-images/d0bed/d0bed8a82e21d0c4712836d9a574555fd631c0e0" alt=""
然后只是在命令行中运行R也不是很有效,所以需要安装Rstudio-server,即R的IDE
参考https://posit.co/download/rstudio-server/
因为是centos,所以选择redhat
data:image/s3,"s3://crabby-images/0a4d3/0a4d39f5340cf7bb9a0ea9fb56c1047dc6476e3c" alt=""
需要注意操作系统的版本以及是否符合之类
需要root权限,以及需要查看系统要求是否符合
(2)Rstudio-server暂时使用不了的话,可以试试使用jupyter-lab作为R的IDE
此处另外选择一个新环境安装r-base
data:image/s3,"s3://crabby-images/957eb/957ebfe612724098fde23e1c10bc2d711fd1cd01" alt=""
安装在新环境r441中
然后就是内核:
退出然后在shell中
data:image/s3,"s3://crabby-images/e42c2/e42c20a831922532db3273bd08b334080ce73eb7" alt=""
data:image/s3,"s3://crabby-images/a9bbf/a9bbf8f624ef7d0b8957702f57bfdc48c47ac750" alt=""
按照shell上提示的信息,可以打开所提供的网址,对应的是8888端口
但是暂时复制粘贴想在edge或google上打开无果,都不显示
而且基本上输入jupyter-hub命令的时候就默认打开服务器自带的firefox,一开始打开几次firefox都巨卡,且不能输入互动之类;后来多打开几次还行------总之打开之后要加载挺长时间才能点击
在这个过程还进行了firefox浏览器配置的修改:
https://blog.csdn.net/Zed_Faker/article/details/54629814
data:image/s3,"s3://crabby-images/c16d6/c16d63ce6d44e765f271a3445c59da9314dffd7d" alt=""
然后界面其实和intel devcloud类似,因为使用的都是jupyter-hub,
基本上生信用的IDE要么是Rstudio-server或者是Jupyter-hub
但是我们可以看到:launcher中并无R
data:image/s3,"s3://crabby-images/80782/807824c7ba878f497e4f8c60ebe7e434566888f0" alt=""
data:image/s3,"s3://crabby-images/159bd/159bd973c275ee25be01920aad7fc522c2e0c240" alt=""
在终端shell中进入R运行完毕之后,再点击刷新,重新进入就有:
data:image/s3,"s3://crabby-images/1c05e/1c05e0df01f63bc89838082bc56ad8849f0ede27" alt=""
data:image/s3,"s3://crabby-images/8af43/8af43abf5e767071589142c177883157b472ec11" alt=""
实际上就是参考https://mp.weixin.qq.com/s/O0Xxlvr-R-lLkMOZUgTUAQ
也就是我的博客:https://blog.csdn.net/weixin_62528784/article/details/142214087?spm=1001.2014.3001.5502
(3)假设我们现在有了jupyter-hub,想要在上面安装各种R包(Rstudio-server就另外说):
data:image/s3,"s3://crabby-images/29dd9/29dd99bef2a51ed6bd4cc64637376b89a6844d44" alt=""
在notebook中的cell里输入的命令,实际上是在后台shell终端中执行安装命令的:
但是正如我博客https://blog.csdn.net/weixin_62528784/article/details/142214087?spm=1001.2014.3001.5502所言,
在jupyter上安装会有error:
所以参考使用在linux上直接安装R包:
另外参考https://mp.weixin.qq.com/s/trAs7vh0N97sPQFl8W35gg
假设我们现在想安装tidyverse R包:
在当前环境中搜索该R包:
data:image/s3,"s3://crabby-images/d69e7/d69e7cfcff9c77c8575d7e49c4427fddbbc7c3e9" alt=""
其实可以看到,安装也都是一些依赖的R包:也是linux上的r-xxx包这种命名方式
data:image/s3,"s3://crabby-images/0fd84/0fd84bb507283c0a2f5a548b0cbfb5b7ad120239" alt=""
然后再在对应的env中的notebook中进行library
data:image/s3,"s3://crabby-images/776f3/776f32613177e217c11759c487336d10d20f2fe1" alt=""
除了不能显示环境变量以及Rstudio中的一些便捷操作之外,至少jupyter-hub作为唯二的linux上的生信IDE还是勉强能用的;
而且很多生信分析流程中有很多的主流处理库、包也有很大比例是python,比如说是单细胞处理分析以及空间转录组方面。
5,然后基本的配置清楚之后,就是整体上的计算任务对应的设施分配了:
(1)上游的测序数据处理:只要数据量超过10G的,上游任务统统都在服务器上处理,或者是超算中心;
------大型服务器,或者是超算中心
(2)下游数据分析:主要是使用到R包,如果数据量超过10G,或者是加载高性能的R包来处理的任务(多序列连续任务,多依赖/内存需求大的R包),统统放在小型服务器上跑
------小型服务器,比如说
(3)下游数据分析:如果数据量不超过10G的,并且进行的数据分析操作不复杂(对于内存等的需求也不大)的任务,可以放在本地的Rstudio-server中处理
------本地rstudio/jupyter处理