根据基因名批量查找它的Uniprot编号

背景:

前几天老师交给我一个任务,给我一个基因列表,让我查找它们所编码的蛋白质的蛋白质序列。我上了一下uniprot数据库,发现这个任务可以分成两步:

  • 找到这个基因在Uniprot数据库中所对应的蛋白质编码
  • 根据蛋白质编码批量下载蛋白质序列(以前的文章)

下面我们以基因"BOP1"为例:

然后可以看到:

这里我们可以看到,有一个个框,代表不同的蛋白。我们要找的是人,所以应该是Homo sapiens。Gene也是BOP1。对应上了!Q14137就是我们要找的uniprot编码。也可以这样说:BOP1~Q14137。

知道了一个那好办,给我们100,1000个呢?这时候我们的爬虫就出现了。直接给代码:

python 复制代码
# 导包
import pandas as pd
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium import webdriver
from selenium.webdriver.edge.options import Options
from openpyxl import Workbook
workbook = Workbook()
sheet = workbook.active


#加载selenium配置
user_data_dir = r'C:\Users\*****'
options = Options()
options.add_argument(f'--user-data-dir={user_data_dir}')
driver = webdriver.Edge(options=options)
#读取文件
file_path = r'*****/step1.xlsx'
df = pd.read_excel(file_path, header=None)
# 获取蛋白名称列的数据
protein_names = df[0].tolist()
#开爬
for protein in protein_names:
    # 构建带有查询参数的URL
    url = f'https://www.uniprot.org/uniprotkb?query={protein}'
    print(url)
    driver.get(url)

    # 使用Selenium等待页面加载完成(最多等待30秒)
    wait = WebDriverWait(driver, 30)
    wait.until(EC.presence_of_element_located((By.XPATH, '/html/body/div/div/div/div/main/ul/li[2]/section/div[1]/div[1]/h2/a/span')))

    # 使用XPath查找页面上的内容
    #xpath_expression = '/html/body/div/div/div/div/main/ul/li/section/div[1]/div[1]/h2/a/span'
    xpath_expression = '/html/body/div/div/div/div/main/ul/li/section/div[1]/div[2]/div'

    # 使用XPath查找页面上的内容
    ul = driver.find_element(By.XPATH, '/html/body/div/div/div/div/main/ul')

    lis = ul.find_elements(By.TAG_NAME, 'li')

    for li in lis:
        title = li.find_element(By.XPATH, './section/div[1]/div[2]/div').text
        result = title.split("·")
        if protein in result[1] and 'Homo sapiens (Human)' in result[2]:
            protein_slice = li.find_element(By.XPATH, './section/div[1]/div[1]/h2/a/span').text
            protein_slice = protein_slice.split("·")
            result = [x.strip() for x in protein_slice]
            protein_name = result[0]
            sheet.append([protein, result[0]])
            break

output_file = 'output2.xlsx'
workbook.save(output_file)

# 关闭浏览器
driver.quit()

我们来看看输出文件:

相关推荐
2501_947575805 小时前
计算机毕业设计之jsp开山车行二手车交易系统
java·开发语言·hadoop·python·信息可视化·django·课程设计
Byron__6 小时前
AI学习_06_短期记忆与长期记忆
人工智能·python·学习
取经蜗牛7 小时前
Python 第一阶段完全指南:从零到第一个实用工具
开发语言·python
创世宇图7 小时前
【Python工程化实战】OpenTelemetry 在 Python 中的全链路追踪落地:从埋点到可视化的完整实战指南
python·分布式链路追踪·性能监控·opentelemetry·微服务可观测性
许彰午8 小时前
72_Python爬虫基础BeautifulSoup
爬虫·python·beautifulsoup
zhanghongyi_cpp9 小时前
10. 实验书3.4.2 筛选达到预警阈值的病虫害数据
python
tuddy7894649 小时前
Codex++ 安全边界探秘:从模型能力到风险防御
人工智能·python·安全
C++、Java和Python的菜鸟9 小时前
第1章 集合高级
java·jvm·python
第六五9 小时前
Python 内置装饰器
开发语言·python
梦帮科技9 小时前
UE5 GAS 实战:用 Gameplay Ability System 搭建「赛博修真」境界与技能体系
c++·人工智能·python·ue5·c#