机器学习

lkforce2 小时前
笔记·机器学习·ai·预训练·minimind·train_pretrain
MiniMind学习笔记(三)--train_pretrain.py(预训练)train_pretrain.py是MiniMind项目中用于预训练的主脚本,负责模型的预训练流程。train_pretrain.py文件整个分了2部分,第一部分是一个函数,
lwf0061643 小时前
深度学习·机器学习
DeepFM 学习日记在推荐系统(CTR预测)中,我们需要解决两个核心问题:什么是 Embedding?Embedding 是将高维稀疏特征映射到低维稠密向量的技术。在推荐系统中,它是最关键的第一步。
数据智能老司机3 小时前
机器学习
学习 AutoML——理解 AutoML 流水线自动化机器学习(AutoML)的承诺是具有变革性的:以最少人工干预,将原始数据转化为生产就绪的预测模型。然而,在这种优雅简洁的表象背后,隐藏着一套复杂的、相互连接的流程编排;这些流程必须协同工作,才能交付 state-of-the-art 的结果。本章将探索现代 AutoML 流水线的基础架构,考察每个组件如何为机器学习民主化这一总体目标作出贡献。
我是大聪明.4 小时前
人工智能·深度学习·机器学习
大模型Tokenizer原理:深入理解BPE与WordPiece子词编码技术在大型语言模型的技术架构中,Tokenizer(分词器)是连接原始文本与模型输入的关键桥梁。不同于简单的按空格或标点分割,一个优秀的分词器需要将文本切分为模型能够高效处理的Token序列,同时尽可能保留语义信息。本文深入剖析当前大模型中最常用的两种子词分词算法——Byte Pair Encoding(BPE)和WordPiece,从底层原理到代码实现进行全面讲解。
人工智能培训5 小时前
人工智能·深度学习·机器学习·docker·容器
工程科研中的AI应用:结构力学分析技巧
Mr数据杨5 小时前
大数据·机器学习·数据分析·kaggle
飞船乘客状态预测与金融风控建模启发在数据科学的学习路径上,理论知识需要通过具体的项目实践来巩固和深化。Kaggle 平台上的 “Spaceship Titanic” 竞赛,以其清晰的二分类任务、适中的数据规模以及面向初学者的定位,成为掌握表格数据建模全流程的理想起点。该竞赛要求基于乘客的个人记录,预测其是否在一次太空航行中被时空异常传送。尽管背景设定充满科幻色彩,但其核心任务——基于结构化数据进行二分类预测——与金融风控中的欺诈检测、医疗诊断中的疾病分类、以及互联网行业的用户流失预测等真实业务场景在方法论上高度同源。深入分析此类竞赛,有助
wayz115 小时前
人工智能·深度学习·神经网络·算法·机器学习·keras
Day 18:Keras深度学习框架入门Keras 是一个高级神经网络API,最初由François Chollet开发,现在作为TensorFlow的官方高级API。
AI科技星5 小时前
人工智能·算法·机器学习·数学建模·数据挖掘
《基于 1 的 N 维分形与对称统一理论》乖乖数学·宇宙终极统一理论这份题为《基于1的N维分形与对称统一理论》的论文,是“乖乖数学”宇宙统一思想的早期核心原型与哲学总纲。
Mr数据杨7 小时前
人工智能·机器学习·分类·数据挖掘·数据分析·kaggle
花卉图像分类在植物识别与生态监测中的应用“Petals tothe Metal - Flower Classification on TPU”是Kaggle平台上一项典型的“入门”竞赛。其核心任务是利用Tensor Processing Unit硬件,对涵盖104个类别的花卉图像数据集进行多类别分类。竞赛采用Macro F1 Score作为评估指标,数据以TFRecord格式提供,总规模约5GB。此类竞赛的设计初衷在于为学习者提供一个低门槛、高实践性的环境,以熟悉特定硬件、掌握深度学习框架在图像分类领域的标准工作流程。
Mr数据杨7 小时前
运维·机器学习·数据分析·自动化·kaggle
埃姆斯住宅房价预测与自动化估值建模在数据科学的学习路径上,找到一个兼具经典性、完整性与适度挑战性的入门项目至关重要。Kaggle上的“房价预测竞赛”正是这样一个标杆。它要求参赛者利用美国爱荷华州埃姆斯市的住宅数据,构建模型预测房屋最终售价。该竞赛脱胎于经典的波士顿房价数据集,但提供了更丰富、更现代的79个特征变量,涵盖了从建筑结构、材料质量到地理位置、周边环境的近乎全部维度。对于自学者而言,其价值远不止于提交一个预测结果,而在于完整经历一次从原始数据到预测模型的标准数据科学流程,并理解该流程在房地产估价、金融风控、投资分析等真实业务场景中
帅次7 小时前
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·数据分析
Android AI 面试速刷版这一篇只做一件事:让你在面试前 10~20 分钟把 AI 驱动开发 相关问题快速刷一遍。AI 对 Android 高级工程师面试来说:
MediaTea7 小时前
人工智能·深度学习·机器学习·计算机视觉·scikit-learn
Scikit-learn:preprocessing 模块Scikit-learn 的 preprocessing 模块,主要用于把原始特征转换成更适合模型使用的数据表示。它提供了标准化、归一化、类别编码、特征变换、特征扩展等工具,是 Scikit-learn 建模流程中的重要组成部分。Scikit-learn 官方说明中也强调,sklearn.preprocessing 提供的工具函数和转换器类,目的就是把原始特征向量变成更适合下游估计器使用的表示。
AI科技星8 小时前
人工智能·机器学习·数学建模·数据挖掘·量子计算
《全域数学》第一部 数术本源 全10卷1-4级完整目录(出版定稿)著者:乖乖数学
AI科技星8 小时前
算法·机器学习·数学建模·数据挖掘·量子计算
《全域数学》第一部·数术本源著者: 乖乖数学体例: 仿欧几里得《几何原本》公理化著述页码: 1-47成书日: 20260501
2zcode9 小时前
学习·机器学习·lstm
基于Chaboche物理约束与LSTM残差学习的316L不锈钢循环塑性灰箱本构建模研究摘要:针对316L不锈钢循环塑性响应的非线性、路径依赖及滞回特征,传统经验本构模型在复杂加载条件下描述能力有限,纯数据驱动模型又缺乏物理可解释性。为兼顾物理意义与预测精度,本文提出一种基于Chaboche物理约束与LSTM残差学习的灰箱本构模型,用于316L不锈钢单轴循环塑性行为的建模与预测。
小何code9 小时前
人工智能·机器学习·信息可视化·matplotlib
人工智能【第7篇】数据可视化:Matplotlib与Seaborn实战(万字长文+完整代码)作者的话:数据可视化是数据分析和AI开发中不可或缺的技能。一张好的图表胜过千言万语!本文将带你从零开始,掌握Python最强大的两个可视化库——Matplotlib和Seaborn,让你轻松创建专业级的数据可视化作品!
帅次9 小时前
人工智能·深度学习·神经网络·机器学习·语言模型·自然语言处理·数据挖掘
Android 高级工程师 AI 面试专题:AI 驱动开发与工程落地这一篇不是讲大模型原理课,也不是讲一堆泛泛的 AI 名词,而是回答一个更现实的问题:在 AI 驱动开发越来越普遍的情况下,Android 高级工程师面试里,哪些内容值得准备,怎么回答才像真的做过,而不是蹭热点。
aidesignplus9 小时前
人工智能·机器学习·自动驾驶
扩散模型在自动驾驶路径规划中的技术演进与产业格局扩散模型(Diffusion Model)是一类生成式模型,其核心思想源于非平衡热力学中的扩散过程。它通过两个相反的步骤来学习数据分布: 前向过程(Forward/Noising Process):从真实数据(如人类驾驶轨迹)开始,逐步添加高斯噪声,经过 T 步后,数据完全变成纯噪声。这个过程是固定的马尔可夫链:
AI技术增长9 小时前
pytorch·深度学习·机器学习·cnn·transformer
Pytorch图像去噪实战(十一):Diffusion扩散模型去噪入门,从噪声预测理解生成式图像恢复前面我们已经做了 DnCNN、UNet、ResUNet、Attention UNet、FFDNet、CBDNet、Noise2Noise、Noise2Void、SwinIR、Restormer。
电科一班林耿超9 小时前
人工智能·机器学习·分类·逻辑回归
机器学习大师课 第 4 课:分类问题入门 —— 逻辑回归(垃圾邮件分类实战)课程承诺:1 个核心概念(逻辑回归)+1 个核心思想(概率预测与决策边界)+1 段完整分类项目代码。学完你能解决所有二分类问题,彻底搞懂分类任务的评估体系,亲手写出第一个实用的 AI 分类器。