embedding

蜂蜜黄油呀土豆1 小时前
langchain·大语言模型·embedding·向量数据库·rag
RAG 的基石:文本嵌入模型与向量数据库为什么 RAG 离不开 Embedding 与向量数据库?在上一篇文章中,我们已经讲过: RAG(Retrieval-Augmented Generation)本质上是“先找资料,再让大模型回答问题”。
喜欢吃豆1 天前
embedding·拓扑学·rag
异构向量空间失配机制与负余弦相似度的深层拓扑学解析(RAG索引,检索期间embedding模型不一致会带来的后果)——从黎曼流形错位到语义检索失效的系统性研究在当代自然语言处理(NLP)与神经信息检索(NIR)体系中,向量嵌入(Vector Embedding)是连接离散符号与连续语义空间的桥梁。
小程故事多_804 天前
数据库·人工智能·sql·开源·aigc·embedding
开源界核弹级输出!蚂蚁 Agentar-Scale-SQL 凭 “编排式扩展” 技术,成为 Text-to-SQL 天花板在数字化时代,数据已成为企业和组织的核心资产,但如何让非技术人员轻松获取数据 insights 一直是行业难题。传统的 SQL 查询要求使用者掌握专业的编程语言知识,这在很大程度上限制了数据的普及应用。而 Text-to-SQL 技术的出现,让用户可以用自然语言提问,系统自动生成对应的 SQL 语句,极大降低了数据访问的门槛。在这一领域,蚂蚁集团推出的 Agentar-Scale-SQL 凭借其卓越的性能和创新的技术方案,成为行业关注的焦点。
Blossom.1184 天前
人工智能·分布式·深度学习·安全·web安全·开源软件·embedding
基于图神经网络+大模型的网络安全APT检测系统:从流量日志到攻击链溯源的实战落地摘要:在护网行动中,传统IDS对APT攻击的检出率不足15%,漏报的高级威胁导致内网沦陷。我用GraphSAGE+LogsBERT+Neo4j搭建了一套APT检测系统:自动从Suricata日志构建"主机-进程-网络"异构图,GNN识别异常行为模式,LLM生成攻击链语义报告。上线后,APT检出率提升至97.3%,误报率从120次/天降至3次/天,攻击溯源时间从8小时压缩至25分钟。核心创新是将ATT&CK战术映射为图结构特征,让LLM学会"黑客语言翻译"。附完整Suricata插件化代码和威胁狩猎平台集成
丝瓜蛋汤4 天前
人工智能·embedding
Conan-embedding整理embedding: 将文字映射到高维连续空间中,相似的文字有更靠近的向量表征。现有方法的缺陷:一般,embedding模型通过对比学习来训练,负例的质量对于模型表现非常关键。之前的研究提出了很多难负样本挖掘策略,这些策略都只在预处理阶段使用,限制了模型处理复杂多变的训练数据的能力。
峰兄1983055 天前
embedding
基于AD9361的BPSK调制解调器探索:位同步与误码率测试基于AD9361的BPSK调制解调器、位同步、误码率测试demo。 零中频架构,适用于AD9361等软件无线电平台,带AD9361纯逻辑FPGA驱动,verilog代码,Vivado 2019.1工程。 本产品为代码
Lian_Ge_Blog6 天前
embedding·word2vec
Embedding 模型word2vec/glove/fasttext/elmo/doc2vec/infersent学习总结ELMO(Embedding from Language Model),通过无监督预训练多层双向LSTM模型来学习带上下文信息的(Contextualized)单词表示。一种动态的,语境化的词向量表示方法,可以根据上下文语境来生成相应词的向量表示。
_codemonster7 天前
人工智能·机器学习·embedding
AI大模型入门到实战系列(三)词元(token)和嵌入(embedding)想象一下,你是一个刚来到地球的外星人,完全不懂人类的语言和文字。你的任务是要理解《哈利·波特》这本书。
GokuCode8 天前
golang·embedding·xcode
【GO高级编程】05.类的扩展与复用Go 语言不支持传统面向对象中的“继承”(inheritance),但它通过 组合(composition) 和 结构体嵌入(embedding) 实现代码复用,这种方式更灵活、更安全,也符合 Go 的设计哲学:“组合优于继承”。
大千AI助手8 天前
人工智能·机器学习·openai·embedding·ada-002·文本嵌入·大千ai助手
Text-Embedding-Ada-002:技术原理、性能评估与应用实践综述本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术!
_codemonster9 天前
人工智能·深度学习·embedding
AI大模型入门到实战系列(五)上下文嵌入向量(contextualized embedding)这节我们展示从输入嵌入向量(input embedding)到上下文嵌入向量(contextualized embedding)的完整过程。我们将用一个简化版的Transformer层来处理一个短句。
Blossom.11810 天前
人工智能·分布式·深度学习·神经网络·copilot·开源软件·embedding
基于Embedding+图神经网络的开源软件供应链漏洞检测:从SBOM到自动修复的完整实践摘要:在Log4j漏洞后,我们扫描发现项目中居然有347个间接依赖的log4j-old,人工排查耗时3周还没搞完。我用CodeBERT+GAT+CodeT5plus搭建了一套供应链漏洞治理系统:把Maven/Gradle依赖树转成异构图,用图注意力网络检测漏洞传播路径,LLM自动生成修复PR。上线后,高危漏洞检出率从43%提升至98.7%,平均修复时间从4.2天降至1.8小时。核心创新是把"漏洞可达性分析"转化为图上的链接预测问题,让模型学会识别"哪些依赖实际调用了漏洞方法"。附完整GitHub App集
Yeliang Wu11 天前
微调·embedding·训练·ms-swift
基于 ms-swift 框架微调 Embedding 模型(Ubuntu22.04):从原理到实践作者:吴业亮 博客:wuyeliang.blog.csdn.netEmbedding模型的核心是将文本转化为低维稠密向量,使语义相似的文本向量距离更近、语义相异的更远。微调的目标是让预训练Embedding模型适配特定领域/任务(如金融、医疗文本相似度匹配),核心逻辑是:
点云SLAM16 天前
人工智能·学习·嵌入式·embedding·安装·英文单词学习·雅思备考
Embedding 英文单词学习单词:embedding词性:名词 / 形容词(由动词 embed 衍生)发音:词源: 来自动词 embed(嵌入、安置) → embedding = 嵌入 / 嵌入式 / 嵌入操作
陈鋆16 天前
langchain·embedding
Langchain-Chatchat[三、PG向量库embedding存储]跟踪PG向量库embedding存储,即需要分析: kb --recreate-vs 命令,重新创建向量库以及文本内容加强embedding存储。
东南门吹雪17 天前
人工智能·语言模型·embedding
向量、张量、大语言模型、Embedding您好!向量数据库(Vector Database)是**专门用于存储、管理和搜索高维向量嵌入(Vector Embeddings)**的数据库。
阿杰学AI17 天前
人工智能·ai·语言模型·自然语言处理·aigc·embedding·多模态理解
AI核心知识31——大语言模型之Multimodal Understanding(简洁且通俗易懂版)多模态理解 (Multimodal Understanding) 是多模态技术中侧重于 “输入” 和 “感知” 的那一面。
至此流年莫相忘19 天前
服务器·windows·embedding
第二版:Windows 服务器上私有化部署 Qwen/Qwen3-Embedding-0.6B 模型而 Qwen3-Embedding-0.6B 是通义千问系列中专为中文优化的 轻量级嵌入模型,参数量仅 0.6B,适合在普通服务器甚至高性能 PC 上运行,是私有化部署的理想选择。
阿杰学AI19 天前
人工智能·语言模型·aigc·embedding·向量数据库·rag·vector database
AI核心知识26——大语言模型之Embedding与Vector Database (简洁且通俗易懂版)如果说 RAG(检索增强生成) 是大模型的“外挂图书馆”,那么 Embedding(嵌入) 和 Vector Database(向量数据库) 就是让这个图书馆能瞬间找到书的“图书管理员”和“索引系统”。
胡乱儿起个名19 天前
python·机器学习·embedding
Embedding查表操作为了简单,我把参数设很小:也就是:Embedding 的权重矩阵 weight 是一个形状为:的查表: