技术栈
机器学习
橙露
3 小时前
人工智能
·
深度学习
·
机器学习
特征选择实战:方差、卡方、互信息法筛选有效特征
在机器学习与数据挖掘的实际应用中,我们常常面临一个令人困扰的问题:数据集中动辄成百上千个特征,但其中真正对预测目标有价值的可能寥寥无几。过多的冗余特征不仅会显著增加模型训练的计算成本,还可能导致“维度灾难”——随着特征维度增加,数据在空间中的分布变得异常稀疏,模型更容易陷入过拟合,泛化能力不升反降。
海森大数据
4 小时前
人工智能
·
机器学习
数据与特征“协同进化”:机器学习加速发现高性能光合成过氧化氢COF催化剂
过氧化氢作为一种绿色氧化剂和潜在清洁燃料,其光催化合成近年来备受关注。共价有机框架材料因其结构可设计、功能可调等优势,在光催化产H₂O₂领域展现出巨大潜力。然而,COF光催化剂的研发长期受困于机理复杂、结构空间庞大等难题——传统试错法仅能探索化学空间的极小部分,而复杂的激子效应、电荷转移动力学过程又使定量构效关系难以建立。
高洁01
6 小时前
人工智能
·
python
·
深度学习
·
机器学习
·
transformer
大模型微调进阶:多任务微调实战
大模型微调进阶:多任务微调实战一、 什么是多任务微调? 二、 多任务微调的数据组织 三、 多任务微调的训练策略 四、 任务选择与任冲突 五、 从单任务到多任务:一个渐进路径
Code_Artist
8 小时前
机器学习
·
langchain
·
llm
LangChainGo构建RAG应用实况:切分策略、文本向量化、消除幻觉
本篇文章主要是给各位看官介绍如何使用 LangChainGo 手动地构建 RAG 应用。注意我这里使用了“手动”这个词,区别于 Dify 类似的平台,它们创建 RAG 相关的智能体都是全自动的。从文档知识上传再到切分策略、文本向量化入库这整个流程都是傻瓜式的。开发者只需要关注他的业务逻辑就行了,但是这样对于开发者来说平台就是一个黑盒,无法定制化,调优比较困难。
研究点啥好呢
9 小时前
大数据
·
人工智能
·
机器学习
·
github
·
数据
Github热门项目推荐 | 开放数据的新时代
在当今数字化时代,开放数据已经成为推动科学研究、政府透明度和技术创新的关键力量。GitHub作为全球最大的代码托管平台,不仅承载着软件开发项目,更成为了开放数据存储、发布和协作的重要场所。本文深入分析GitHub上八个具有代表性的开放数据项目,这些项目展示了如何利用GitHub存储、发布和协作处理机器可读数据集,为数据科学家、研究人员和开发者提供了宝贵的学习资源。
梦中的飞行家
10 小时前
机器学习
IsaacSim/IsaacLab
1.replace “rl-games”: [ “rl-games @ git+https://gitee.com/lishisen123_admin/rl_games.git@python3.11”, “gym”, ] 2.replace https://github.com/ARISE-Initiative/robomimic.git with https://gitee.com/jiangkaiyannick/robomimic.git
小江的记录本
11 小时前
java
·
前端
·
人工智能
·
后端
·
python
·
机器学习
·
架构
【RAG】RAG检索增强生成(核心架构、全流程、RAG优化方案、常见问题与解决方案)
检索增强生成(Retrieval-Augmented Generation, RAG)是结合外部知识库检索与大语言模型生成能力的技术框架。核心逻辑是:在大模型生成回答前,先从私域/实时知识库中召回与用户Query相关的权威知识片段,将其作为事实上下文注入Prompt,引导大模型严格基于检索到的内容生成回答。
sp_fyf_2024
11 小时前
人工智能
·
深度学习
·
神经网络
·
机器学习
·
语言模型
·
自然语言处理
【大语言模型】 揭开指令混合用于大语言模型微调的神秘面纱
指令微调能显著提升大语言模型(LLMs)在多种任务上的性能。然而,如何优化用于LLM微调的指令数据集的混合策略,目前仍然缺乏深入理解。本研究将指令分为三大主要类型:NLP下游任务、代码生成和通用对话。我们探索了不同数据集组合的指令微调对LLM性能的影响,并发现某些指令类型对特定应用更有优势,但可能会对其他领域产生负面影响。这项工作为指令混合提供了深入见解,为未来的研究奠定了基础。
半夏之沫
13 小时前
人工智能
·
机器学习
·
llm
✨向量化✨和Embedding
大家好,我是半夏之沫 😁😁 一名金融科技领域的JAVA系统研发😊😊 我希望将自己工作和学习中的经验以最朴实,最严谨的方式分享给大家,共同进步👉💓👈 👉👉👉👉👉👉👉👉💓写作不易,期待大家的关注和点赞💓👈👈👈👈👈👈👈👈
luoganttcc
13 小时前
人工智能
·
算法
·
机器学习
CUDA grid/block 到矩阵映射示例(矩阵加法)
给一个例子 grid block 到矩阵的映射 ,以矩阵加法来表示我们用一个非常具体、可以直接运行脑补的例子,把 CUDA 里的 grid / block → 矩阵索引彻底讲清楚,并用矩阵加法来表达。
xixixi77777
14 小时前
人工智能
·
gpt
·
安全
·
机器学习
·
架构
·
大模型
·
通信
智算中心建设新范式:GPT-6/Rubin架构+1.6T光模块+量子安全网关+AI安全沙箱,算力·效率·安全·成本的最优平衡
当AI训练进入十万卡集群时代,智算中心不再只是GPU的堆叠,而是一场从芯片、互连、安全到运行底座的系统性工程。
龙腾AI白云
14 小时前
python
·
机器学习
·
逻辑回归
·
pygame
大模型微调进阶:多任务微调实战
一、 什么是多任务微调?二、 多任务微调的数据组织三、 多任务微调的训练策略四、 任务选择与任务冲突五、 从单任务到多任务:一个渐进路径
齐齐大魔王
14 小时前
人工智能
·
机器学习
机器学习(一)
机器学习的发展脉络可划分为五个关键阶段,每个阶段都有突破性理论和技术的涌现:理论基础奠基代表人物 图灵、麦卡锡、明斯基、香农
云和数据.ChenGuang
14 小时前
人工智能
·
python
·
机器学习
·
django
·
pygame
·
deepseek
机器学习之方差和标准差计算
这个公式是Z-score标准化(Standardization),其中的σ就是总体标准差(Population Standard Deviation),下面给你完整的计算步骤、公式、Python实现和注意事项。
阿杰学AI
14 小时前
人工智能
·
算法
·
机器学习
·
ai
·
强化学习
·
dpo
·
直接优化偏好
AI核心知识122—大语言模型之 直接偏好优化(简洁且通俗易懂版)
DPO (Direct Preference Optimization, 直接偏好优化) 是大模型对齐(Alignment)领域的一场“暴力美学”革命 。
天一生水water
14 小时前
人工智能
·
机器学习
机器学习中的小提琴图有什么作用
小提琴图(Violin Plot)是机器学习和数据分析中一种非常实用的可视化工具,它结合了箱线图和核密度估计图的优点,主要用于展示数据的分布形态。
FluxMelodySun
15 小时前
人工智能
·
算法
·
机器学习
机器学习(三十二) 半监督学习-基于分歧的方法与半监督聚类
与生成式方法、半监督SVM、图半监督学习等基于单学习器利用未标记数据的方式不同,基于分歧的方法 (disagreement-based methods) 使用多学习器,学习器之间的"分歧"对未标记数据的利用至关重要。"协同训练"(co-training)[Blum and Mitchell,1998]是此类方法的重要代表,它最初也被看作"多视图学习"(multi-view learning)的代表。
LDG_AGI
16 小时前
大数据
·
人工智能
·
深度学习
·
elasticsearch
·
机器学习
·
搜索引擎
【搜索引擎】Elasticsearch(四):bool查询(与where类似),多条件搜索利器
bool 是 Boolean(布尔逻辑)的缩写,这个名字来源于数学和计算机科学中的布尔代数。在 Elasticsearch 中,bool 查询的核心作用就是组合多个条件,实现逻辑上的 AND(与)、OR(或)、NOT(非)操作:
一个平凡而乐于分享的小比特
16 小时前
人工智能
·
机器学习
·
自动驾驶
2026,自动驾驶“分水岭”:L3持证上岗,L4冲向无人区
🔥作者简介: 一个平凡而乐于分享的小比特,中南民族大学通信工程专业研究生,研究方向无线联邦学习 🎬擅长领域:驱动开发,嵌入式软件开发,BSP开发 ❄️作者主页:一个平凡而乐于分享的小比特的个人主页 ✨收录专栏:未来思考,本专栏结合当前国家战略和实时政治,对未来行业发展的思考 欢迎大家点赞 👍 收藏 ⭐ 加关注哦!💖💖
Dfreedom.
16 小时前
人工智能
·
算法
·
机器学习
·
kmeans
·
聚类
聚类算法对比分析:K-Means、DBSCAN 与层次聚类
在数据科学和机器学习领域,我们面对的数据往往缺乏先验的标签。聚类分析作为一种核心的无监督学习方法,其目标是将数据集中的样本划分为若干个“簇”,使得同一簇内的数据尽可能相似,不同簇间的数据尽可能不同。聚类有助于我们从无序数据中发现隐藏的、有意义的群组结构,是进行数据探索、客户分群、异常检测、简化复杂系统理解的关键第一步。