从基础算法到机器学习的研究轨迹

基于Python编程的学习轨迹推荐

博主的Python Package Index账号发布了自己在研究基础算法(例如排序算法、最优化算法、神经网络算法)和机器学习(例如空间域识别、细胞类型解卷积、多组学融合)的轨迹。这里推荐各个Python软件的学习方式和场景。

掌握Python原生编程和算法设计

想要掌握Python原生编程,首选排序算法,因为排序算法是数据科学的核心内容,也是大规模工程的重要内容,所以推荐下载sortingx,它是一个覆盖了大多数应用场景的Python排序软件库,能够在一定规模内达到工业级别的算法执行能力。目前sortingx的下载次数可以通过这里查询。

python 复制代码
pip install sortingx --upgrade

了解应用广泛的优化算法和软件

想要了解科学界应用最广泛的可导算法,当然首选优化算法,因为优化算法是研究变化趋势和拟合数据模式的关键算法,所以推荐下载optimtool,它是一个覆盖了无约束优化、约束优化、复合优化、优化应用的Python优化算法库,能够在研究最优参数时发挥一定的模拟验证作用,现在大多数神经网络框架还在使用一阶的无约束优化算法和复合优化算法,optimtool覆盖了这些算法并且支持非精确拟牛顿法和信赖域算法。目前optimtool的下载次数可以通过这里查询。

python 复制代码
pip install optimtool --upgrade

精通神经网络训练的配置和迁移

想要精通神经网络的训练,最重要的是理解线性可分和判别器这个两个词,这两个词能通过一个nn.Linear模块来完成,前者通过控制隐藏层的长度来完成高维可分的映射,后者通过增加概率判别层来完成分类任务的创建。核心在于使用神经网络进行数据集的训练,而非研究如何设计神经网络,所以推荐下载perming,它是一个集成了数据加载器、神经网络训练、训练早停监控等多个技巧的软件。目前perming的下载次数可以通过这里查询。环境需要在Windows系统内安装支持PyTorch的GPU加速版。

python 复制代码
pip install perming --upgrade

熟悉简单且实用的全局优化算法

想要了解某个具体问题的实际方案,常常需要代数化这个问题,所以这个问题在数学层面需要考虑可微或不可微的问题,那么这时会需要全局优化算法来完成这个问题的范围搜索。推荐下载使用porgo,因为这个库使用的是面向对象设计,而且集成了搜索效率较高的差分进化算法,能在有限的次数内给出理想的方案。目前porgo的下载次数可以通过这里查询。

python 复制代码
pip install porgo --upgrade

了解变分自编码器和KAN新模型

想要在如今爆火的生成式AI领域,不仅能应用AI搜索,还能使用AI本身的模型结构来完成机器学习交叉科学的研究,那么变分自编码器和Kolmogorov-Arnold Network (KAN)是最好的模型了。前者是生成潜在空间的模型,后者是模拟非线性复杂组合的新模型。推荐下载stkan,因为它是用于空间转录组学中的空间域识别的软件,空间转录组学是生物信息学的某个领域,现在用于机器学习研究,所以stkan可以用于探索表格数据集在生成潜在空间和主成分分析的实际应用。目前stkan的下载次数可以通过这里查询。实验环境是Linux系统Python 3.10, torch=2.1.0+cu121, torch_geometric=2.3.1, torch-sparse=0.6.18+pt21cu121, 和torchvision=0.16.0+cu121。

python 复制代码
pip install torch==2.1.0 torchvision==0.16.0 --index-url https://download.pytorch.org/whl/cu121
pip install torch_sparse==0.6.18+pt21cu121 -f https://data.pyg.org/whl/torch-2.1.0+cu121.html
pip install stkan
pip install numpy==1.26.4

了解空间域细胞类型分布和占比

想要在生物学领域了解到细胞类型,知晓每张生物组织切片细胞类型混合状态时的每个空间域的细胞类型的分布和占比,那么需要用到神经网络模型和一些生物学技巧。目前强烈推荐下载ctdecon,因为这个软件是结合KAN模型的机器学习推断空间域内细胞类型占比的工具,专用于细胞类型反卷积,旨在从卷积混合的空间域中分离出每个细胞类型的占比。目前ctdecon的下载次数可以通过这里查询。实验环境是Linux系统Python 3.10和torch=2.1.0+cu121,安装好stkan后,环境可以在ctdecon环境下使用。

python 复制代码
pip install ctdecon

了解多模态空间组学的视图组合

想要了解同一生物类型的组学数据的多模态融合,要从空间转录组学和蛋白质组学、空间转录组学和表观基因组等有限数据的组合开始,这里的视图是每个组学,组合是组学间的跨模态交互特征。目前推荐下载mmspao,这个软件是最新的应用对齐观测空间和主成分分析的多数据集应用的软件,能够融合理论上任意组学的组合。目前mmspao的下载次数可以通过这里查询。实验环境是Linux系统Python 3.10和torch=2.1.0+cu121。

python 复制代码
pip install torch==2.1.0 --index-url https://download.pytorch.org/whl/cu121
pip install mmspao
pip install numpy==1.26.4
相关推荐
ws201907几秒前
技术赋能,机遇共生:AUTO TECH China 2026广州汽车零部件展解码产业新未来
大数据·人工智能·科技·汽车
IT_陈寒几秒前
Java线程池用完不关闭?小心内存泄漏找上门
前端·人工智能·后端
分布式存储与RustFS1 分钟前
AI 数据湖最佳实践:RustFS 支撑大模型训练的存储架构与性能优化
人工智能·性能优化·架构·对象存储·minio·企业存储·rustfs
笨笨饿1 分钟前
42_C语言查找算法
linux·服务器·c语言·人工智能·mcu·学习方法·嵌入式软件
黑客说1 分钟前
AI 游戏:从固定剧本到无限宇宙
人工智能·游戏
计算机安禾2 分钟前
【数据结构与算法】第33篇:交换排序(二):快速排序
c语言·开发语言·数据结构·数据库·算法·矩阵·排序算法
山茶花.3 分钟前
Accio Work 全面解析:从免费白嫖到2000积分时代
大数据·人工智能
沙雕不是雕又菜又爱玩6 分钟前
leetcode第12、13、14、15题(C++)
c++·算法·leetcode
AI2512247 分钟前
AI生视频主流工具功能及生成技术原理解析
人工智能·音视频
云捷配低代码9 分钟前
低代码自动化工作流实战:实现跨部门业务协同的自动化流转
运维·人工智能·低代码·自动化·数字化·敏捷流程·数字化转型