我的机器学习起步如何Getting Started

学习技巧和原则

  • 先通过经典书籍进行科普
  • 知名机器学习网站
  • 根据书籍或网站的目录,先泛读、再选择有兴趣的部分重点精读、后至于反复读
  • 知行合一

起步Getting Started

  • 周志华版《机器学习》,又名西瓜书

可以作为科普书籍,需要主动略过对于理论推导过程,和数学公式的求真
介绍的非常全面,可作为参考书籍
书籍的前几章基本上概括了机器学习现在的框架,有助于对具体的机器学习算法或工具进行把握

  • 吴军博士《数学之美》

更侧重对于自然语言处理、语音识别、搜索等方面的人工智能上层应用,做了专向的科普和技术原理概要介绍。
文风轻松、叙事流畅,读起来相当轻松

区别于常见回归分类的基础应用,对于更上层的人工智能技术应用进行了介绍,并阐述了背后的数学原理并不复杂
更侧重于基于大数据的概率统计、马尔可夫过程、条件概率等技术手段进行人工智能应用

介绍了粗略结构

仅关注目录结构,把握机器学习的大脉络
每个章节仅读取头部几个章节的简单的内容
数据清洗,对于这一部分目录的了解,让你几乎可以作为一名初级的数据工程师

英文比较好的同学,可以深入研究其它官网例子

  • 信息论主要观点
    • 信息消除不确定性
    • 信息量、信息熵

代码例子学习网站

  • scikit-learn

相当全面的机器学习工具库,着力解决中小数据规模的机器学习问题,但大部分也够用了
基于深度学习的神经网络,确实在既适应线性问题、又适应非线性问题方面比较突出
可视化例子

  • OpenCV

对于图片或视频进行处理,可以进行一些SVMKNN的机器学习,甚至包括一些预处理。例如,常用的图片灰度化手段,其实从机器学习来看,就是专家赋能后进行降维处理,但是,对于学习任务信息量又没有丢失太多,以致于学习不到什么东西。

彩蛋

  • 回归问题和分类问题的桥梁

对数几率回归;两者的差别没有想想的那么大

  • CNN卷积神经网络

在图片特征抽取上面找到了工程上可接受的调参技术手段,关键在于最终步骤采样特征向量形成
相比较于常见较为容易处理特征向量,深度学习对于容易获取的图片数据、但难以描述其典型特征的的粗材料数据,提供了形成特征向量的方法

  • 对于关系数据库中的表记录作为特征向量的思考

关系数据库中的唯一索引对于机器学习并不友好,可以考虑提前去除
非唯一索引等非独立属性可以作为聚类分析的关注对象

其它列数据基本上可以做到相互独立,或依赖比较弱

  • 算力的忧虑

一般人很难拥有强大算力,需要注意如何自举

结束语

机器学习对于其成熟的应用领域,确实达到了工具化的程度,如果了解了,就会能够使用,并成为倍增器!

相关推荐
AI医影跨模态组学3 分钟前
如何将淋巴结影像组学特征与肿瘤血管异质性及缺氧微环境建立关联,并进一步解释其与晚期胆道癌免疫治疗响应及预后的机制联系
人工智能·论文·医学·医学影像·影像组学
小王毕业啦12 分钟前
2005-2024年 省级-总抚养比、儿童抚养比、老年人抚养比数据(xlsx)
大数据·人工智能·数据挖掘·数据分析·社科数据·实证分析·经管数据
程序员柒叔21 分钟前
OpenClaw 一周动态-2026-W18
人工智能·agent·openclaw
OneThingAI39 分钟前
网心算力云上线 DeepSeek-V4-Pro
人工智能·aigc·deepseek·onethingai
2501_9272835844 分钟前
荣联汇智助力天津艺虹打造“软硬一体”智慧工厂,全流程自动化引领印刷包装行业数智变革
大数据·运维·数据仓库·人工智能·低代码·自动化
小程故事多_8044 分钟前
[大模型面试系列] 多轮对话 Agent 设计实战(含窗口优化 + 工具调用精髓)
人工智能·面试·职场和发展
victory04311 小时前
论文设计和撰写1
人工智能·深度学习·机器学习
love530love2 小时前
精简版|Claude-HUD 插件介绍 + 一键安装教程
人工智能·windows·笔记
冬奇Lab2 小时前
RAG 系列(四):文档处理——从原始文件到高质量 Chunk
人工智能·llm·源码
冬奇Lab2 小时前
一天一个开源项目(第89篇):Warp - AI 驱动的现代化 Rust 终端
人工智能·rust·开源