论文笔记:Scaling Sentence Embeddings with Large Language Models

2024 ACL findings

1 intro

  • 直接利用LLMs生成句子嵌入面临两个主要挑战
    • LLMs作为自回归模型生成的是文本而非向量,因此需要将输出向量化
    • 如何有效地将上下文学习的能力融入句子嵌入中也是一个关键问题
  • 论文调查了当前LLMs在句子嵌入中的能力
    • 如何使用LLMs表示句子嵌入,并且提示工程是否有效?
      • 设计了一套prompt
    • 上下文学习是否能提升句子嵌入的质量?
      • ------>通过添加定义句子和相应的词作为示例进行上下文学习,性能可以进一步提高
    • 当模型参数超过数十亿时,参数规模是否依然有效?
      • 从数百万个参数到数十亿个参数的过渡,能够提高STS任务的表现。
      • 然而,继续扩大参数规模可能不会带来更多的改善。
        • 即使是上下文学习,66B的OPT在STS任务上仍然不如6.7B的OPT
      • 尽管如此,扩大模型规模能提高迁移任务的性能。
        • 具有数十亿参数的LLMs在没有任何微调的情况下,仍展现出强大的性能,甚至达到了最新的状态。
    • 将当前对比学习框架融入LLMs后能取得哪些改进?
      • 通过采用对比学习可以进一步提高性能。
      • 通过采用高效的微调技术,LLMs即使在有限计算资源下,也能够在STS任务上取得最先进的成果
  • 通过评估LLaMA和OPT在语义文本相似度(STS)任务和迁移任务上的表现,进行系统性研究

2 方法

2.1 使用LLMs表示句子

  • 提取最后一个token的隐藏向量作为句子嵌入
    • 把bert风格的prompt("This sentence: " text " means MASK")改成OPT风格的(This sentence: " text " means in one word: ")

2.2 使用高效微调的对比学习

  • 还利用对比学习来提升LLMs的句子嵌入能力,已被证明是一种高效的学习方法
    • 这里使用了有监督对比学习
      • 每个句子都有对应的正面句子和硬负面句子
      • l是sequence length

3 实验

相关推荐
KaMeidebaby1 小时前
卡梅德生物技术快报|蛋白 N 端测序在重组贻贝融合蛋白表征中的应用,解决原核表达序列偏移工艺难题
前端·人工智能·物联网·算法·百度
TMT星球1 小时前
从像素复刻到行动控制:具身世界模型的底层逻辑探索
人工智能·深度学习·机器学习
ccimao63161 小时前
散户做财报整理、研报阅读、复盘记录,各类AI工具适配环节梳理
大数据·人工智能
派叔1 小时前
老字号营销服务商技术解构:三类方案的架构逻辑与选型评估
大数据·人工智能·搜索引擎·架构·产品运营·流量运营
Byron__1 小时前
AI学习_06_短期记忆与长期记忆
人工智能·python·学习
万悉科技2 小时前
实战:如何通过GEO原生内容结构化,让LLM稳定推荐你的品牌网站
大数据·人工智能·重构
董厂长2 小时前
从 Claude Code 放弃 RAG 说起:实际项目中如何合理创建知识库
人工智能·llm
元岳数字人小元2 小时前
如何依托数字人源码做好私有化部署选型
人工智能·开源·人机交互·交互
Turbo正则2 小时前
群论在AI中的应用概述
人工智能·算法·抽象代数
Fibocom广和通2 小时前
让机器人动作更流畅!广和通实现VLA端侧推理2.6倍加速
大数据·人工智能·机器人