技术栈
大模型
CoderOnly
4 分钟前
人工智能
·
大模型
SFT后训练32B-LLM的一些观察
用COIG-CQIA数据集,以及把COIG-CQIA数据集混合guanaco和belle之后的数据集一起SFT 32B-Base模型,或者基于32B-Chat模型SFT(1-3 epoch), 目的是想提升LLM在单一语种的效果, 然后在中文通用评测集CEVAL和CMMLU评测, 效果都不如32B-Chat模型。
喜欢吃豆
2 小时前
人工智能
·
架构
·
大模型
·
2025博客之星
企业级 AI 系统分层存储架构深度研究报告
随着大语言模型(LLM)与检索增强生成(RAG)技术的普及,企业数据架构面临前所未有的挑战。尽管 PostgreSQL 通过 pgvector 等插件提供了向量存储能力,但在处理亿级规模数据、高并发检索以及复杂元数据管理的生产环境中,单一的“All-in-Postgres”架构往往暴露出性能瓶颈与运维风险。
ThinkPet
2 小时前
java
·
人工智能
·
ai
·
大模型
·
rag
·
springai
·
mcp
【AI】大模型知识入门扫盲以及SpringAi快速入门
大模型是基于海量数据训练的、参数量巨大的深度学习模型,核心能力是理解和生成人类语言,完成推理翻译代码编写等复杂任务。案例-chatgpt,千问,豆包,deepseek。
大数据00
4 小时前
python
·
flask
·
大模型
·
alibaba
·
ollama
·
springai
·
deepseek
基于Ollama大模型学习
官网下载: https://ollama.com/downloadhttps://ollama.com/download 网盘下载:
阿尼亚要好好读书呀
4 小时前
大模型
大模型实践之数据准备
https://www.bilibili.com/video/BV15irPBzE14
盼小辉丶
4 小时前
深度学习
·
大模型
·
多模态大模型
数据不再“拖后腿”,EasyLink重塑非结构化数据处理新范式
在人工智能 (Artificial Intelligence, AI) 技术快速发展的今天,高质量的数据预处理已成为决定智能化成败的关键因素。EasyLink 通过创新的非结构化数据处理技术,能够将混乱的多模态数据转化为高质量的 AI 数据准备基础。在本文中,我们将深入探讨 EasyLink 如何通过创新技术架构,实现对复杂文档的语义级理解,对视频内容的结构化解析,以及对全量非结构化数据的端到端处理,并介绍 EasyLink 的技术优势。
AI周红伟
5 小时前
大模型
·
微调
·
部署
·
rag
·
智能体
·
agent智能体
周红伟《DeepSeek企业大模型的企业级部署及优化和RAG知识库和Agent智能体构建的案例交付实操》
——企业私有RAG知识库业务助手的构建课程背景大规模预训练模型已成为推动智能化转型的核心动力。从DeepSeek,Qwen, Yiyan 到各行业定制化大模型,越来越多的企业开始将“以大模型为中台”的技术架构融入产品与服务。
AndrewHZ
5 小时前
人工智能
·
语言模型
·
大模型
·
cpu
·
访存
·
计算逻辑
【AI黑话日日新】什么是访存bound?
在后端高性能开发、算法性能调优、大数据处理等场景中,我们总会遇到一个共性问题:明明CPU配置很高,程序运行速度却始终上不去。
wangmengxxw
6 小时前
大模型
·
springai
·
advisor
SpringAI-Advisor
ChatMemoryRepository 接⼝是对话记忆存储的抽象。⽀持多种存储⽅式,例如:内存⽅式、 JDBC ⽅式以及 Redis ⽅式等,每种实现⽅式都有特定的实现类。⽐如内存⽅式就是通过 InMemoryChatMemoryRepository 类实现的。
雪碧聊技术
1 天前
java
·
大模型
·
langchain4j
1、LangChain4j 名字的寓意
你好,LangChain4J:开启Java开发者的智能应用新篇章!欢迎来到本文,无论你是初次接触 LangChain4J,还是已经对 AI 应用开发有所涉猎,这里都将为你提供一个清晰的起点。
huazi-J
1 天前
语言模型
·
大模型
·
transformer
·
datawhale
Datawhale Happy-LLM 课程 task 4:Encoder-Decoder
此博客为Datawhale 组队学习打卡笔记[1] https://github.com/datawhalechina/happy-llm
过期的秋刀鱼!
1 天前
人工智能
·
深度学习
·
机器学习
·
大模型
·
线性回归
·
过拟合和欠拟合
·
大模型调参
机器学习-正则化线性回归
如上图我们不需要对b进行正则化,w控制着特征的影响强度,W太大会容易让模型对训练数据过于敏感,造成过拟合,而B是偏置项,相当于对所有样本添加了一个固定值,,他的大小对模型的影响很小,不会导致过拟合额,他只影响模型的整体平移
CoderJia程序员甲
1 天前
人工智能
·
ai
·
大模型
·
github
·
ai教程
GitHub 热榜项目 - 日榜(2026-01-18)
生成于:2026-01-18共发现热门项目: 12 个榜单类型:日榜本期GitHub热榜显示AI与大模型应用正深入解决实际问题,技术热点集中在文本信息结构化提取和智能语音生成。Google的langextract利用LLMs精准抽取文本信息,OpenBMB的VoxCPM实现无需分词的高质量语音克隆,凸显了多模态AI技术的成熟落地。同时,TrendRadar和anthropics的技能库展示了AI在信息聚合与智能体工作流构建方面的强大能力,而ultralytics的YOLO和NVIDIA的物理AI框架则推动
山顶夕景
2 天前
大模型
·
llm
·
ocr
·
多模态
·
文档智能
·
vlm
【VLM】Format Decoupled Reinforcement Learning for Document OCR
【文档智能进展】讲的故事是格式化文本(公式、表格等)比纯文本熵值高一个数量级,导致模型输出不确定性大、解析准确率低,所以搞了个应对思路。工作在:Reading or Reasoning? Format Decoupled Reinforcement Learning for Document OCR,https://arxiv.org/pdf/2601.08834,
用什么都重名
2 天前
python
·
大模型
·
llm
·
api调用
「实战指南」使用 Python 调用大模型(LLM)
目录前言1. 原生HTTP请求方式1.1 核心特点1.2 关键代码分析1.3 优势和适用场景1.4 完整代码
无双@
2 天前
ai
·
大模型
·
agent
·
claude
·
配置
·
claude code
·
skills
保姆级 安装+使用上 Claude Code
Claude Code 是 Anthropic 推出的一个 面向开发者的 AI 编程助手(CLI 工具)。你可以把它理解成: 👉 “能直接在你本地项目里干活的 Claude”,而不是只在网页里聊天。
CoderJia程序员甲
2 天前
ai
·
开源
·
大模型
·
github
·
ai教程
GitHub 热榜项目 - 日榜(2026-01-17)
生成于:2026-01-17共发现热门项目: 9 个榜单类型:日榜本期GitHub热榜显示AI应用开发正全面渗透工程实践,智能体框架superpowers和agents.md通过标准化方法显著提升开发效率,而langextract则解决了LLM信息抽取的精度难题。同时,本地化离线工具如Handy和AionUi凸显隐私与可控需求,YOLO持续领跑目标检测,可视化编辑器Puck及多款桌面协同工具则推动开发体验革新,整体趋势指向AI驱动的实际解决方案正趋于成熟、可复现且高度集成。
乙真仙人
2 天前
人工智能
·
大模型
·
skills
Claude Skills 的本质
你可能在各种地方看到过关于 Claude Skills 的介绍,但说实话,大部分文章看完之后你还是不知道它到底是怎么运作的。
tiger119
2 天前
大数据
·
大模型
·
提示词
·
ai agent
AI Agent 如何从演示到生产
我最近在网上看到一套“Agent 的 12 种核心构建范式”,感觉它实际上很明确的介绍了AI Agent如何从一个演示程序到生产可用的搭建过程和原则。挺完整,就顺手记录、翻译了一下,也补了一点自己在工程视角下的理解。
北邮刘老师
2 天前
服务器
·
网络
·
数据库
·
人工智能
·
大模型
·
智能体
·
智能体互联网
从SEO到ADO:智能体时代的流量密码
但在即将到来的智能体互联网时代,入口正在悄悄变形,而且这次变形更像“换代”,而不是“升级”。用户越来越少在搜索框里做功课,越来越多把任务直接交给智能体:写方案、对比产品、规划行程、挑选课程、筛选简历、生成合同条款……它不像搜索那样把十个链接甩给你,而是试图直接给你一个可执行的答案,甚至替你把下一步也做了。