大模型日报
2024-07-01
大模型资讯
以下是2024年7月1日的一些与大模型相关的新闻:
- 看张手绘草图就能合成图形程序,加州伯克利让扩散模型掌握新技能
- 摘要: 加州大学伯克利分校的研究团队提出了一种使用神经扩散模型来合成新程序的方法。他们通过给模型一张手绘的图形,让模型通过不断突变来修改程序,最终得到能输出目标图形的程序。该方法在逆向图形任务中表现出了优越性能,能够高效地探索程序空间并做出明智的决策。该研究的贡献包括提出了一种在句法树上使用扩散的全新方法,并在逆向图形任务中实现了该方法,发现其优于之前的方法。这项研究对于程序合成领域具有重要意义。
- 开发者狂喜!Meta最新发布的LLM Compiler,实现77%自动调优效率
- 摘要: Meta最新发布的LLM Compiler是一项强大的开源模型,旨在优化代码并彻底改变编译器设计。该模型的优化潜力达到了自动调优搜索的77%,可以显著减少编译时间,并提高各种应用的代码效率。此外,LLM Compiler在反汇编方面的成功率为45%,对于逆向工程任务和旧代码维护具有重要价值。该研究引入了一种LLM Compiler,通过在庞大的语料库上训练模型,使其能够理解编译器中间表示、汇编语言和优化技术。这项技术的潜在影响是探索LLM在代码和编译器优化领域未被开发的潜力。
- 打开文心大模型,一看全是生产力
- 摘要: 百度文心发布了最新的4.0 Turbo版本,提升了速度和效果。该版本在实际应用中展示了大模型的能力,如农民院士智能体和体育大模型。百度通过不断实践,将大模型应用于各行业,创造出前所未有的价值。在云南省澜沧县,百度与中国工程院朱有勇院士合作打造了农民院士智能体,帮助农民解决种植问题。该智能体基于文心智能体平台,学习了朱院士的研究成果和农业知识,农民可以随时向智能体提问并获得专业解答。
- 30倍于传统方法,中国科学院团队Transformer深度学习模型预测糖-蛋白质作用位点
- 摘要: 中国科学院团队开发了一种深度学习模型 DeepGlycanSite,能够准确预测给定蛋白质结构上的糖结合位点。DeepGlycanSite 将蛋白质的几何和进化特征融入具有 Transformer 架构的深度等变图神经网络中,其性能显著超越了之前的先进方法,并能有效预测各种糖类分子的结合位点。该研究发表在《Nature Communications》上,对于糖结合位点预测具有重要价值,并可以深入了解具有治疗重要性蛋白质的糖类调节背后的分子机制。
- 等不来OpenAI的Q*,华为诺亚探索LLM推理的秘密武器MindStar先来了
- 摘要: 该文章介绍了华为诺亚方舟实验室的研究人员提出的一种基于树搜索的推理时间能力提升方法MindStar,该方法在数学问题上达到了近似闭源大模型GPT-3.5与Grok-1的推理能力。文章详细介绍了MindStar的算法架构和推理路径扩展的步骤,并说明了过程监督奖励模型的设计目的和作用。该方法通过帮助大型语言模型选择正确的输出来增强其推理能力,实验结果表明步骤级选择优于传统的CoT方法。
- 人刚毕业,颠覆整个AI界:扒一扒Sora两带头人博士论文
- 摘要: 这篇文章是关于Sora项目的两位主要研究人员的博士论文的介绍。论文主要探讨了图像和视频生成模型在视觉内容创作中的应用,包括长视频生成、基于人体姿态生成场景图像以及通过结合语言模型和文本到图像模型来创建监督训练数据等。文章提供了论文的摘要和主要内容,并介绍了作者的研究背景和工作经历。这篇文章对于了解Sora项目的技术发展和研究方向具有一定的深度和新颖性,对于AI领域的研究者和开发者有一定的实用性。
- 击败25个分子设计算法,佐治亚理工、多伦多大学、康奈尔提出大语言模型MOLLEO
- 摘要: 该文章介绍了佐治亚理工学院、多伦多大学和康奈尔大学合作提出的分子语言增强进化优化(MOLLEO)方法,该方法将拥有化学知识的预训练大语言模型(LLMs)整合到进化算法中,以改善分子优化能力。研究通过多个黑箱优化任务的实验证明了MOLLEO的优越性能,包括单目标和多目标优化。此外,该方法在ZINC 250K数据库中的最佳JNK3抑制剂分子上也展示了进一步优化的能力。该研究对于加速分子发现过程具有重要意义。
大模型论文
- 摘要: ReXTime是一个用于评估AI模型在视频事件中进行时间推理能力的基准测试,包括921个验证样本和2,143个测试样本。
- 摘要: OMG-LLaVA结合像素级视觉理解与推理能力,支持灵活的视觉和文本交互,超越多项基准测试表现。
- 摘要: 研究发现,通过删除和交换相邻层,LLMs仍能保持72-95%的预测准确性,揭示了推理的四个阶段。
- 摘要: DiVERT通过变分误差表示生成数学选择题干扰项,实验显示其效果优于现有方法,并得到教师认可。
- 摘要: IndoToxic2024数据集包含43,692条注释,专注于总统选举期间针对弱势群体的仇恨言论与毒性分类。
- 摘要: 本文通过将大型语言模型(LLM)与情境多臂强盗算法结合,提出了一种初始化算法,显著降低在线学习的遗憾和数据收集成本。
- 摘要: MCNC方法通过将参数空间限制在低维非线性流形上,实现了在计算机视觉和自然语言处理任务中的高压缩率和优异性能。
- 摘要: 研究表明,微调LLMs在合成数据集上可显著提升其在长上下文任务中的信息检索和推理能力,且不影响一般性能。
- 摘要: PhysioLLM系统通过整合可穿戴设备的生理数据与大语言模型,提供个性化健康分析,特别在改善睡眠质量方面表现出色。
大模型开源项目
- 摘要: 微软推出18课生成式AI入门教程,提供Jupyter Notebook示例,帮助初学者快速上手构建生成式AI应用。
- 摘要: 本项目提供《从零到精通PyTorch深度学习》课程的学习资料,主要使用Jupyter Notebook编写。
- 摘要: 微软推出了一个用C#编写的项目,帮助开发者快速轻松地将前沿的大语言模型(LLM)技术集成到应用程序中。
本文由mdnice多平台发布