拟南芥中基因家族序列的提取

1.拟南芥基因组数据的下载

phytozome 是一个收录植物基因组数据的网站,数据整理比较规范,已 经提供了去除可变剪切的 cds 和 protein 序列文件。只有 gff3 文件需要 过滤处理

  1. 对拟南芥的注释文件gff3文件进行ID处理,最终得到以下4个文件

基因组文件:Ath.genome.fasta

基因注释文件:Ath_final.gff3 cds

序列文件:Ath.cds.fasta

蛋白序列文件:Ath.pep.fasta

3.从拟南芥数据库 geneFamily 中下载我们关注的基因家族信息

手动将列表信息复制粘贴至notepad++软件中并保存

然后查阅拟南芥的基因组Ath_genome.fasta文件发现其gene_id全是大写字母,而上述的存在大小写,需将其全部转换成大写ID

awk 命令

然后说说 awk 命令(文本三剑客之一),你可以使用它的 touppertolower 选项来进行相同的操作。同样是上例,脚本中的命令可以使用以下方式代替执行:

bash 复制代码
$ cat SPL_Ath.list | awk '{print toupper($0)}' >> SPL_Ath.idlist
$cat SPL_Ath.idlist

AT2G47070
AT1G27370
AT1G27360
AT3G60030
AT5G50570
AT1G20980
AT3G57920
AT1G76580
AT5G43270
AT2G33810
AT1G53160
AT3G15270
AT1G69170
AT5G18830
AT1G02065
AT2G42200

上边是将字符转换为大写字符,下边则是相反操作,转换为小写字符:

复制代码
$ cat SPL_Ath.list | awk '{print tolower($0)}' >> test2.list
  1. 基于SPL_Ath.idlist的ID信息去蛋白质序列文件提取对应的氨基酸序列
bash 复制代码
##首先安装seqtk软件
conda install -y seqtk
##再利用subseq选项根据id列表提取对应的序列
seqtk subseq Ath.pep.fasta SPL_Ath.idlist > SPL_Ath.pep.fasta

出现错误,没有提取序列成功;查阅一看发现是目标序列的ID"AT2G47070"和拟南芥蛋白质序列的ID"ATCG00500.1"(从Phytozome网站下载的)名称不一致

查阅发现从Emsembl网站下载的才是和自己的ID命名格式相同

bash 复制代码
##利用subseq选项根据id列表提取对应的序列
seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa SPL_Ath.idlist > SPL_Ath.pep.fasta
复制代码
##利用sed命令配合正则表达式

cat test1.fasta | sed  's/.*gene:\(.*\) transcript:.*/>\1/p' |less -S

##保存结果

cat test1.fasta | sed  's/.*gene:\(.*\) transcript:.*/>\1/p' > pep.fasata

ID替换成基因的id

bash 复制代码
seqtk subseq Arabidopsis_thaliana.TAIR10.pep.all.fa SPL_Ath.idlist > SPL_Ath.pep.fasta

利用seqtk命令进行序列的提取

参考来源:

在Linux命令行内直接进行大小写转换 | 良许Linux教程网 (lxlinux.net)

相关推荐
云和数据.ChenGuang几秒前
OpenEuler 系统中安装 MySQL
运维·数据库·mysql·adb·运维工程师·运维技术
wniuniu_2 分钟前
ceph中的rbd的稀疏写入
java·服务器·数据库
牛奶咖啡133 分钟前
Linux线上服务器掉电后无法启动故障的分析与修复实践——及其隐患解决(标准分区扩容、逻辑分区缩容与扩容)
服务器·系统掉电后无法启动故障排查解决·根分区满后重启无法进入系统·解决根分区满后故障分析解决·修复根分区满后系统故障·逻辑卷分区的缩容与扩容·标准分区的扩容
DeeplyMind7 分钟前
ROCm rocr-libhsakmt性能跟踪与分析系列10-5:跟踪启动、数据采集与停止
linux·驱动开发
jerryinwuhan8 分钟前
linux_1219_1
linux
为什么不问问神奇的海螺呢丶8 分钟前
SFTP搭建-自动检测上传文件修改权限-rsync 自动同步到其他服务器
运维·服务器
山沐与山10 分钟前
【Docker】Docker容器技术详解
运维·docker·容器
沉醉不知处11 分钟前
远程连接虚拟机,设置网络后,ip不变
服务器·网络·tcp/ip
@小博的博客12 分钟前
Linux的工具第一篇:vim编辑器的使用详解
linux·编辑器·vim
梦想的旅途212 分钟前
探索界面自动化技术在企业微信外部群管理中的应用场景与实现思路
运维·自动化·企业微信