大模型日报2024-06-02

大模型日报

2024-06-02

大模型资讯

  1. LLM360推出K2:开源大语言模型,计算效率超越Llama 2 70B
  • 摘要: LLM360发布了K2,一款完全可复现的开源大语言模型。K2在计算效率上超越了Llama 2 70B,使用的计算能力减少了35%。这一突破性的模型为大规模语言处理提供了更高效的解决方案。
  1. Uni-MoE: 多专家混合的统一多模态大语言模型扩展
  • 摘要: 最近,多模态大语言模型(MLLMs)在架构和性能方面的进展突显了其重要性。Uni-MoE通过多专家混合方法,进一步扩展了这些模型的能力,提升了多模态数据处理的效率和准确性。
  1. OpenAI正在训练GPT-5,三大升级亮点值得期待
  • 摘要: 尽管OpenAI最近推出的GPT-4o大幅提升了大型语言模型的标准,但该公司已经开始训练其继任者GPT-5。预计GPT-5将带来三大重要升级,进一步推动人工智能技术的发展。
  1. AutoCoder超越GPT-4 Turbo和GPT-4o在人类评估基准测试中取得领先
  • 摘要: AutoCoder成为首个在2024年4月的人类评估基准测试中以90.9%的pass@1成绩超越GPT-4 Turbo和GPT-4o的超大型语言模型。
  1. OpenAI推出面向大学的ChatGPT工具
  • 摘要: OpenAI发布了一款专为大学设计的ChatGPT工具,旨在更广泛地向学生及其校园社区推广人工智能应用。
  1. 从ChatGPT到Gemini:AI如何重塑互联网
  • 摘要: 大型科技公司如微软(Copilot)、谷歌(Gemini)和OpenAI(GPT-4o)正在推动AI聊天机器人技术的发展,这些技术以前仅限于测试阶段。
  1. EmbedAI漏洞可导致恶意数据混入LLM
  • 摘要: EmbedAI存在漏洞,可能允许恶意数据混入语言模型。此漏洞可被利用,诱使用户无意中上传和整合错误数据到应用程序的语言模型中,造成误导。
  1. Core42发布最新阿拉伯语大语言模型,现已在微软Azure上线
  • 摘要: G42旗下公司Core42宣布其最新的阿拉伯语大语言模型现已在微软Azure平台上线,为中东地区提供全面的AI赋能解决方案。这一发布标志着Core42在AI技术领域的又一重要进展。
  1. Meta将为部分AI产品引入水印功能
  • 摘要: Meta平台将在未来几周内为其文本生成图像产品Imagine添加不可见水印功能,并与Meta AI聊天机器人结合使用。
  1. 印度初创公司JiviAI声称其AI医疗语言模型优于谷歌和OpenAI
  • 摘要: 古尔冈的初创公司JiviAI表示,其基于AI的医疗语言模型在性能上超越了谷歌和OpenAI的同类产品。该公司在新德里宣布了这一消息,强调其技术的领先地位。

大模型产品

大模型论文

  1. 大语言模型在Web任务中的自我提升能力
  • 摘要: 研究大语言模型在复杂环境中作为代理的自我提升能力,通过在WebArena基准测试中自我改进,任务完成率提高31%。
  1. MotionLLM:多模态人类行为理解
  • 摘要: 本研究提出MotionLLM框架,结合视频和运动数据,提升人类行为理解、描述与推理能力,并引入MoVid数据集和MoVid-Bench评估基准。
  1. 通过参数空间对齐实现视觉感知
  • 摘要: 提出VLoRA,通过参数空间对齐减少输入序列长度,显著降低计算成本,同时保持多模态任务性能。
  1. RapVerse:从文本生成3D动作与歌唱
  • 摘要: 提出RapVerse,通过收集同步的说唱数据集,利用多模态变换器,实现从文本生成3D整体动作和歌唱声音。
  1. Xwin-LM:LLM对齐方法的强大实践
  • 摘要: Xwin-LM提供了一套全面的对齐方法,包括监督微调、奖励模型、拒绝采样微调和直接偏好优化,显著提升LLM性能。
  1. ParSEL: 自然语言驱动的3D形状编辑系统
  • 摘要: ParSEL系统通过自然语言实现高质量3D资产的可控编辑,利用LLM和AEP算法生成参数化编辑程序,精确控制形状变化。
  1. CausalQuest:自然因果问题数据集构建
  • 摘要: CausalQuest收集了13,500个自然因果问题,利用人工和大模型标注,训练高效分类器识别因果问题,F1评分达0.877。
  1. ANAH: 大语言模型幻觉的分析性注释
  • 摘要: ANAH是一个双语数据集,提供生成性问答中大语言模型幻觉的细粒度注释,包含约12k句子级注释。
  1. FoldFlow-2: 蛋白质骨架生成的序列增强SE(3)流匹配
  • 摘要: FoldFlow-2利用氨基酸序列的生物偏置,结合多模态融合和几何变换器,提升蛋白质结构生成的多样性和新颖性。
  1. PlausiVL: 真实世界中可行动作序列预测模型
  • 摘要: 介绍PlausiVL,一个大规模视频语言模型,通过引入两种目标函数,提升动作序列的合理性,改善未来动作预测。

大模型开源项目

  1. ChatTTS: 日常对话生成语音模型
  • 摘要: ChatTTS是一个用于日常对话的生成语音模型,采用Jupyter Notebook编写,适合生成自然对话的语音输出。
  1. ChatTTS本地网页语音合成工具
  • 摘要: 一个简洁的本地网页界面应用,使用ChatTTS将文字合成为语音,并支持API接口调用,基于Python开发。
  1. MusePose:虚拟人生成图像到视频框架
  • 摘要: MusePose使用姿态驱动技术,实现虚拟人从图像到视频的生成,基于Python语言开发。
  1. ToonCrafter:生成卡通插值研究
  • 摘要: ToonCrafter是一个用Python编写的项目,主要研究生成卡通插值技术。该项目通过生成模型实现卡通图像的平滑过渡。
  1. Fabric:增强人类的AI开源框架
  • 摘要: Fabric 是一个用Python编写的开源框架,通过众包AI提示解决特定问题,旨在增强人类能力。
  1. 腾讯AI实验室V-Express项目
  • 摘要: V-Express通过参考图像、音频和V-Kps图像序列生成可控的说话人视频,使用Python编写。
  1. 新模型超越GPT-4 Turbo代码生成
  • 摘要: 我们推出了一种新模型,用于代码生成任务。在HumanEval基准数据集上的测试准确性超过了GPT-4 Turbo(2024年4月)和GPT-4o。
  1. Novita AI动画实现
  • 摘要: Novitalabs项目提供了Novita AI的非官方实现,使用Python编写,可以为任何人生成动画效果。
  1. LLM应用集合:支持多种模型
  • 摘要: 收集了使用OpenAI、Anthropic、Gemini和开源模型的LLM应用,展示了RAG技术的实际应用,基于Python语言开发。
  1. Dify: 开源LLM应用开发平台
  • 摘要: Dify是一个开源LLM应用开发平台,提供AI工作流、RAG管道、代理功能、模型管理和可观测性等特性,助您快速从原型到生产。
相关推荐
昨日之日20061 小时前
Moonshine - 新型开源ASR(语音识别)模型,体积小,速度快,比OpenAI Whisper快五倍 本地一键整合包下载
人工智能·whisper·语音识别
浮生如梦_2 小时前
Halcon基于laws纹理特征的SVM分类
图像处理·人工智能·算法·支持向量机·计算机视觉·分类·视觉检测
深度学习lover2 小时前
<项目代码>YOLOv8 苹果腐烂识别<目标检测>
人工智能·python·yolo·目标检测·计算机视觉·苹果腐烂识别
热爱跑步的恒川2 小时前
【论文复现】基于图卷积网络的轻量化推荐模型
网络·人工智能·开源·aigc·ai编程
阡之尘埃4 小时前
Python数据分析案例61——信贷风控评分卡模型(A卡)(scorecardpy 全面解析)
人工智能·python·机器学习·数据分析·智能风控·信贷风控
孙同学要努力6 小时前
全连接神经网络案例——手写数字识别
人工智能·深度学习·神经网络
Eric.Lee20216 小时前
yolo v5 开源项目
人工智能·yolo·目标检测·计算机视觉
其实吧38 小时前
基于Matlab的图像融合研究设计
人工智能·计算机视觉·matlab
丕羽8 小时前
【Pytorch】基本语法
人工智能·pytorch·python
ctrey_8 小时前
2024-11-1 学习人工智能的Day20 openCV(2)
人工智能·opencv·学习