embedding

fyakm4 小时前
自然语言处理·bert·embedding
词向量:从 One-Hot 到 BERT Embedding,NLP 文本表示的核心技术在自然语言处理(NLP)领域,“让计算机理解文本” 的第一步,是将人类可读的文字转化为机器可计算的数值形式 —— 这就是文本表示的核心目标。而词向量(Word Embedding)作为文本表示的基础单元,直接决定了后续 NLP 任务(如文本分类、机器翻译、情感分析)的效果上限。从早期的 One-Hot 编码到如今的预训练词向量(如 BERT Embedding),词向量技术已完成从 “离散稀疏” 到 “连续稠密” 的跨越式发展。本文将以技术演进为主线,从原理、模型、实践到进阶方向,全面解析词向量的核心技术
云帆@3 天前
embedding
qwen3_embeddinggpu部署vllm +openai 请求qwen 架构训练数据格式损失函数训练demo问题解决https://www.modelscope.cn/models/Qwen/Qwen3-Embedding-8B/summary
人工智能培训4 天前
人工智能·深度学习·大模型·transformer·embedding·vision
Transformer-位置编码(Position Embedding)一、NLP transformer 位置编码 位置编码计算公式 位置编码计算示例二、Vision Transformer 代码实现
luoganttcc20 天前
pytorch·深度学习·embedding
PyTorch 中nn.Embedding核心参数与用法 nn.Embedding的核心参数:num_embeddings:嵌入表的大小(即离散特征的总类别数,如词汇表大小)。 embedding_dim:每个嵌入向量的维度(输出向量的长度)。 padding_idx(可选):指定一个索引,其对应的嵌入向量将始终为 0(用于处理填充符号)。
*星星之火*22 天前
gpt·embedding
【GPT入门】第66 课 llamaIndex调用远程llm模型与embedding模型的方法https://docs.llamaindex.org.cn/en/stable/api_reference/llms/openai_like/
XISHI_TIANLAN23 天前
学习·bert·embedding
【多模态学习】Q&A3:FFN的作用?Embedding生成方法的BERT和Word2Vec?非线性引入的作用?在Transformer中,FFN(Feed-Forward Network,前馈神经网络) 是一个至关重要却又常常被低估的组件。如果说Self-Attention的作用是混合信息(让序列中的每个token都能关注到所有其他token),那么FFN的作用就是加工和提炼这些信息,可以把它理解为Transformer的“记忆和推理中心”。
勇往直前plus24 天前
java·spring boot·embedding·milvus
Milvus快速入门以及用 Java 操作 Milvus上面这个图是Milvus的核心系统架构图,和mysql、pg等数据库的系统架构很像,其核心工作流程可以概括为以下几个步骤:
ZHOU_WUYI1 个月前
embedding
Qwen3-Embedding-0.6B 模型结构Qwen3-Embedding-0.6B 是阿里巴巴通义千问团队基于Qwen3基础模型开发的文本嵌入模型,专门为文本表示、检索和重排序任务而设计。该模型在保持高效计算的同时,提供了卓越的多语言文本理解能力。
你是个什么橙1 个月前
人工智能·自然语言处理·embedding
自然语言处理NLP:嵌入层Embedding中input_dim的计算——Tokenizer文本分词和编码嵌入层Embedding中的input_dim是根据数据中所有唯一词(或字)的总数来决定的。可以通过Tokenizer文本分词和编码得到。
小马过河R1 个月前
人工智能·gpt·深度学习·语言模型·embedding
GPT-5原理8月,GPT-5问世。有人吐槽有人吹捧,甚至官方发布会上的一张统计图错误都被喷得体无完肤。然而,不管实际模型能力如何,小马更关心的是GPT-5与之前的GPT系列有什么不同,他的原理又是什么。
df007df1 个月前
人工智能·ocr·embedding·llama
【RAGFlow代码详解-10】文本处理和查询处理文本处理和查询处理系统将自然语言查询转换为与 RAGFlow 的文档存储后端配合使用的优化搜索表达式。该系统支持中英文文本处理,具有专门的标记化、术语加权和查询增强技术。
liliangcsdn1 个月前
人工智能·数据分析·embedding·llama·rerank
基于llama.cpp的量化版reranker模型调用示例CPU平台transformers版reranker响应速度慢,这里尝试量化版模型,期望提高响应速度。
一粒马豆1 个月前
python·embedding·chroma·词嵌入·hugging face·词向量·chromadb
chromadb使用hugging face模型时利用镜像网站下载注意事项chromadb默认使用sentence-transformers/all-MiniLM-L6-v2的词嵌入(词向量)模型,如果在程序首次运行时,collection的add或query操作时如果没有指定embeddings或query_embeddings,程序会自动下载相关嵌入向量模型,但是由于默认hugging face后端网络下载速度常常非常慢,所以需要指定镜像网站以加快模型下载速度。
dundunmm1 个月前
论文阅读·人工智能·embedding·生物信息·单细胞·多组学·细胞类型识别
【论文阅读】SIMBA: single-cell embedding along with features(2)代码地址:https://github.com/pinellolab/simba当前大多数单细胞分析流程仅限于细胞嵌入,并且严重依赖聚类方法,而缺乏显式建模不同特征类型之间相互作用的能力。此外,这些方法往往针对特定任务进行定制,因为不同的单细胞问题通常以不同方式被提出。
dundunmm1 个月前
论文阅读·深度学习·神经网络·embedding·生物信息·单细胞·多组学
【论文阅读】SIMBA: single-cell embedding along with features(1)代码地址:https://github.com/pinellolab/simba当前大多数单细胞分析流程仅限于细胞嵌入,并且严重依赖聚类方法,而缺乏显式建模不同特征类型之间相互作用的能力。此外,这些方法往往针对特定任务进行定制,因为不同的单细胞问题通常以不同方式被提出。
真就死难2 个月前
python·embedding·rag
适用于个人开发、中小型项目的Embedding方案(配合ChromaDB)付费方案:适用于需要特殊处理逻辑的情况可以把这个类传给 Chroma 的 embedding_function=... 参数来完成定制化集成。
INFINI Labs2 个月前
阿里云·云计算·openai·embedding·easysearch
Easysearch 集成阿里云与 Ollama Embedding API,构建端到端的语义搜索系统在当前 AI 与搜索深度融合的时代,语义搜索已成为企业级应用的核心能力之一。作为 Elasticsearch 的国产化替代方案,Easysearch 不仅具备高性能、高可用、弹性伸缩等企业级特性,更通过灵活的插件化架构,支持多种主流 Embedding 模型服务,包括 阿里云通义千问(DashScope) 和 本地化 Ollama 服务,实现对 OpenAI 接口规范的完美兼容。
毛飞龙2 个月前
深度学习·embedding
深度学习中的三种Embedding技术详解在深度学习领域,Embedding(嵌入)技术是一种将高维稀疏数据转换为低维稠密向量表示的核心方法。它在推荐系统、自然语言处理、图像识别等多个领域中发挥着重要作用。
是瑶瑶子啦2 个月前
网络·embedding
【AlphaFold3】网络架构篇(5)|Template embedding & Pairformer stack翻译:模板嵌入(算法16)将所有原始模板特征整合为成对表示,并与给定的成对表示zijz_{ij}zij(由上一次循环迭代生成)一起处理。这使网络能够基于其对当前结构的信念,关注模板中的特定区域。
星月昭铭2 个月前
人工智能·spring boot·python·spring·ai·embedding
Spring AI调用Embedding模型返回HTTP 400:Invalid HTTP request received分析处理Spring AI项目使用的Embedding模型是公司平台部署的,请求模型服务的时候报错,返回了HTTP 400 - Invalid HTTP request received错误。然后换成云厂商在线Embedding模型地址,正常调通。我用Apifox直接调用公司的模型服务,能正常调通。当时真的百思不得其解。