苹果AI功能,GPU内存瓶颈,大气预测模型,Chrome内置Gemini

智源社区

刚刚!苹果发布Apple Intelligence,官宣免费接入ChatGPT,Siri迎来重磅更新

大模型竞速赛鸣枪开跑后,苹果似乎已经脱离了第一梯队,曾经的行业风向标并没有像其他大厂那样频繁地宣讲 AI,加之缺乏能够参与竞争的「明星产品」,其一度被贴上了「落后」的标签。但其实熟悉苹果的网友都知道,这是一家「重落地」的公司,更加擅长的是把创新技术工程化,实现「工程创新」。也正因如此,在生成式 AI 发展如火如荼之际,仍有很多网友在期待苹果的「划时代」产品。

如今,苹果终于「提枪上马」了。在刚刚结束的 WWDC24 主题演讲中,苹果发布了生成式 AI 模型 Apple Intelligence,并介绍了 iOS 18、Siri 等基于 Apple Intelligence 实现...

来源:

Nucleic Acids Res. | GPSFun:使用语言模型的几何感知蛋白序列功能预测

DRUGAI今天为大家介绍的是来自中山大学杨跃东团队的一篇论文。了解蛋白质功能对于阐明疾病机制和发现新药靶点至关重要。然而,蛋白质序列的指数增长与其有限的功能注释之间的差距正在扩大。在之前的研究中,作者开发了一系列方法,包括GraphPPIS、GraphSite、LMetalSite和SPROF-GO,用于蛋白质残基或蛋白质水平的功能注释。为了进一步提高这些方法的适用性和性能,作者现推出GPSFun,这是一款用于几何感知蛋白质序列功能注释的多功能网络服务器,结合了语言模型和几何深度学习以提升以往工具的性能。具体而言,GPSFun利用大型语言模型高效预测输入蛋白质序列的3D构象,并提取有用的序列...

来源:http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==\&mid=2247505451\&idx=1\&sn=49d2384e0504d79822c9b851ff25c7f6\&chksm=fd2ed1f543080afc6e2421c1e71c592ab2358d13f5c827116266d6302d0a253aa25c3820eda0\&scene=0\&xtrack=1#rd

5秒完成3D生成,真香合成数据集已开源,上交港中文新框架超越Instant3D

陈林 投稿自 凹非寺量子位 | 公众号 QbitAI使用大模型合成的数据,就能显著提升3D生成能力?来自上海交大、香港中文大学等团队还真做到了。他们推出Bootstrap3D框架,结合微调的具备3D感知能力的多模态大模型。这个框架能够自动生成任意数量的高质量的多视角图片数据,助力多视图扩散模型的训练。结果表明,新的合成数据能够显著提高现有3D生成模型的生成物体的美学质量和文本prompt的控制能力。目前,Bootstrap3D的数据集已经全面开源。用大模型合成数据近年来,3D内容生成技术迎来了飞速发展。然而,相对于2D图片生成,生成高质量的3D物体仍面临诸多挑战。其中核心的瓶颈即在于3D数据,...

来源:http://mp.weixin.qq.com/s?__biz=MzIzNjc1NzUzMw==\&mid=2247732880\&idx=3\&sn=93a9097421f9b2657cf3f57aa02277de\&chksm=e9de2f3c47eba775093437ff1ebfeea603b49c664b13c3453b2dc6683dc429065ce799f59fb0\&scene=0\&xtrack=1#rd

博士论文 | 2024年Northwestern | 智能体建模:基于智能体的多级模型的设计与分析 319页

基于智能体的建模 (Agent-based modeling,ABM) 在复杂系统研究中发挥着关键作用,它允许研究人员研究个体之间的相互作用如何共同引起群体级和系统级行为。然而,从社会环境系统到肿瘤生物学再到交通建模等领域,越来越多地寻求对不同规模系统之间的相互作用进行建模。多级基于智能体的建模 (Multi-level agent-based modeling,ML-ABM) 扩展了经典的 ABM 技术以满足这一需求。尽管这种需求不断增长,但多级建模技术为建模过程带来了相当大的复杂性,尚未在 ABM 从业者中得到广泛采用。我们为广泛使用的 NetLogo ABM 平台...

来源:http://mp.weixin.qq.com/s?__biz=MzU4NTQyNjc5Mg==\&mid=2247490783\&idx=1\&sn=740b0693e854b51c429485da664b6ea5\&chksm=fcd3131f59086f6552ac9b122506ff4bfa4ad38cd0acd677e5aa2cc2a67a87ebedad9ec65a11\&scene=0\&xtrack=1#rd

AlphaFold3不开源,DeepMind商业化最大的一道坎来了

AlphaFold3的出现,对于整个生物医药都有巨大的意义。但因为其没有立刻开源,掀起了一场强烈的开源闭源争议,甚至遭到了科学界的抵制。据专业人士估计,像DeepMind那样训练AlphaFold3可能需要花费超过100万美元的云计算资源。对于如今动辄上亿美元的AI大模型军备赛不算什么,但也已经是非常多实验室无法承受的数字。尽管DeepMind立马"滑跪",宣布将在6个月内面向学术界开源,但这个决定仍然不能让科学家们满意。学术进步岂能受到资本制约?已经有不少团体立项复现AlphaFold3,难不成DeepMind的商业化之路要断了?开源争议今年5月,Google DeepMind 和 Isom..

来源:http://mp.weixin.qq.com/s?__biz=MzkzMDQyNTY0Mw==\&mid=2247505443\&idx=1\&sn=c9cf2b73995a5b364ae06181851c7a71\&chksm=c3e79aca71d5cdac806bd40beb98ca00dbb591746d7e14a6eb6619d8818f0f89b3f29e8df716\&scene=0\&xtrack=1#rd

InfoQ

在这里,一起见证 AI 时代的数智化跃迁

InfoQ 中国成立17周年,继续与各位并肩前行。

来源:https://www.infoq.cn/article/pW4B4xse6Nh8MDTDhIKQ

国内科技企业和机构发力AI研发,50余篇论文入选顶会ICML2024

2024年国际机器学习大会(ICML2024)共收到9473篇论文投稿,最终录用了2609篇,接收率为27.5%。

来源:https://www.infoq.cn/article/Z4mcTK6XujWIoHbwJE6m

"都是调用的GPT?"ChatGPT、Claude、Perplexity、Gemini 同时都宕机了

"为什么三年之前就在到处宣扬的快速数字化转型,直到今天也无法实现站点的高效规模伸缩?"

来源:https://www.infoq.cn/article/rNDOUPUd2fCg32ykpgU1

抖音Android端图片优化实践

本文介绍抖音Android端通过使用BDFresco图片框架进行图片优化的实践、经验和价值,分享问题和解决策略,旨在为同行提供参考。

来源:https://www.infoq.cn/article/JDQ1rO5gAACNvZZU2SFi

操作系统与AI融合之路再进一步!首个AI原生开源操作系统,openEuler 24.03 LTS正式发布

本次发布会汇聚操作系统产业界顶尖力量,共探openEuler社区技术、生态、国际化发展。

来源:https://www.infoq.cn/article/cWVQffwgQdIg8xUmgDdF

ShowMeAI社区

打造AI爆款应用<新>黄金法则;盘点20款最流行AI搜索工具;ChatGPT对在线知识社区的影响;100万用户教会我的5个教训 | ShowMeAI日报

  1. 盘点 20 款最流行的AI搜索应用,你最喜欢哪几个? [图片] 国内秘塔AI搜索 https://metaso.cn/ 好用,免费,国内 Top 水平 天工AI (昆仑万维) https://www.tiangong.cn/ 好用,免费,技术实力 Top 且快速升级中 简单搜索 App (百度) https://secr.baidu.com/ 只有手机版,规规矩矩的一款AI增强搜索应用 360 AI 搜索 https://so.360.com 最近数据增长蛮快的,综合体验比较流畅 澜舟AI搜索 https://ai-search.langboat.com 中规中矩 BrainStorm ...

来源:https://zhuanlan.zhihu.com/p/698345703

又一款爆火AI游戏诞生!《换你来当爹》做对了什么?| ShowMeAI体验报告

[图片] 社区里几百人玩一款AI游戏的场面,值得记录一下! 大模型游戏化极度看重〖有趣〗程度。可有趣的灵魂那么难得,以至于只要一眼,我们就在产品的海洋里发现了 ta 。1. 有趣的灵魂在发疯疯疯 《换你来当爹》是一款全员发疯的AI游戏,主线任务是任意设定一个角色,然后把他培养成「大孝子」!灵感估计来源于男生大学宿舍里互相喊「爸爸」的传统?看到设定的一瞬间,会心一笑 游戏最初在即刻平台出圈,随后传回微信社群,并成功激发起...

来源:https://zhuanlan.zhihu.com/p/697856247

朱啸虎:AI应用明年肯定大爆发;第3款爆火AI游戏出现了;AI应用定价策略「不能说的秘密」;人类数据不够用了怎么办 | ShowMeAI日报

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦!1. 换你来当爹:国内第3款爆火出圈的AI游戏应用,hhh 太搞笑了 [图片] 周末的时候,社群里伙伴们开始玩一款「 换你来当爹」的AI游戏 进入游戏界面后,输入名字,系统随机生成孩子的「出生设定」。 然后恭喜你!可以开始当爹了!! 好大儿的培养过程,伴随着各种糟心的意外,然后把难题摆在你面前。 哎呀呀!逆子... 这时,你可以在系统给定的两个选项中选择一个,当然也...

来源:https://zhuanlan.zhihu.com/p/697655366

上海交通大学《动手学大模型》编程实战课;提示工程大赛冠军经验分享;AI Agent最新行业地图(3份);人类与ChatGPT恋爱行为指南;提升AI产品留存率的7个技巧 | ShowMeAI日报

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦! 1. 终于来了!OpenAI 周一官网直播,ChatGPT 和 GPT-4 上新啦! [图片] Sam Altman 和 OpenAI 近期一直在造势,演讲、访谈、小更新等动作不断。终于!官方推特宣布,将于 美西时间5月13日上午10点 (⏰ 北京时间5月14日凌晨1点) 在 OpenAI 官网进行直播,演示 ChatGPT 和 GPT-4 的更新。 到底会更新什么呢?!!各方还在猜来猜去。@indigo 的猜测帖 传播度很广,精选...

来源:https://zhuanlan.zhihu.com/p/697448133

ShowMeAI | 全球最有前途的100家AI公司,中国2家上榜;混合专家模型MoE详解;人大最新《大语言模型》电子书开放下载;斯坦福最新AI指数报告

日报&周刊合集 | 生产力工具与行业应用大全 | 点赞关注评论拜托啦! 1. CB Insights 发布「AI 100 2024」榜单,评选出全球最有前途的 100 家人工智能公司 [图片] CB Insights 是全球知名的市场情报分析机构,以其深入的数据分析、前瞻性的行业洞察而著称。CB Insights 最近发布了「AI 100 2024 」榜单,综合考虑了公司交易活动、行业合作伙伴关系、团队实力、投资者实力、专利活动、专项评分等数据维度,并结合 CB Insights 调研和访谈,...

来源:https://zhuanlan.zhihu.com/p/696949266

Aminer.cn

大型语言模型的不确定性表达:忠实度与准确性

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。

来源:https://www.aminer.cn/research_report/665fc8bac028d8419b0a4168

清华大学唐杰:大模型与超级智能

本文探讨了大模型的发展历程,介绍了作者团队研发的GLM-4大模型,并针对AGI研究面临的挑战对AGI未来发展提出了一些思考。

来源:https://www.aminer.cn/research_report/665fc671c028d8419b0a3f77

训练数据匮乏:LLM在正式定理证明中的挑战

别担心,AMiner AI会帮助你高效检索和阅读文献!

来源:https://www.aminer.cn/research_report/665d2bd6c028d8419b08ba06

GPU内存瓶颈:大规模语言模型推理能力的制约因素

想把握最新的科技进展和研究成果,却发现自己的阅读速度根本赶不上文献产出的速度?

来源:https://www.aminer.cn/research_report/665555cec028d8419b0438c5

虚构事实的担忧:大型语言模型的新知识处理能力

AMiner AI,一款集发现论文、分析论文、理解论文、写作论文于一体的科研小助手。它会帮助你更加游刃有余地穿梭在学术海洋中,让科研变得更加有趣和高效!

来源:https://www.aminer.cn/research_report/664c3a53707801418e87e415

arXiv.org

Space using Quantum-Chemical Feedback The discovery of new catalysts is essential for the design of new and more efficient chemical processes in order to transition to a sustainable future. We introduce an AI-guided computational screening framework unifying linguistic reasoning with quantum-chemistry based feedback from 3D atomistic representations. Our approach formulates catalyst discovery as an uncertain environment where an agent actively searches for highly effective catalysts via the iterative combination of large language model (LLM)-derived hypotheses and atomistic graph neural network (GNN)-derived feedback. Identified catalysts in intermediate search steps undergo structural evaluation based on spatial orientation, reaction pathways, and stability. Scoring functions based on adsorption energies and reaction energy barriers steer the exploration in the LLM's knowledge space toward energetically favorable, high-efficiency catalysts. We introduce planning methods that automatically guide the exploration without human input, providing competitive performance against expert-enumerated chemical descriptor-based implementations. By integrating language-guided reasoning with computational chemistry feedback, our work pioneers AI-accelerated, trustworthy catalyst discovery.

来源:http://arxiv.org/abs/2402.10980v4

Self-Improving Robust Preference Optimization

Both online and offline RLHF methods such as PPO and DPO have been extremely successful in aligning AI with human preferences. Despite their success, the existing methods suffer from a fundamental problem that their optimal solution is highly task-dependent (i.e., not robust to out-of-distribution (OOD) tasks). Here we address this challenge by proposing Self-Improving Robust Preference Optimization SRPO, a practical and mathematically principled offline RLHF framework that is completely robust to the changes in the task. The key idea of SRPO is to cast the problem of learning from human preferences as a self-improvement process, which can be mathematically expressed in terms of a min-max objective that aims at joint optimization of self-improvement policy and the generative policy in an adversarial fashion. The solution for this optimization problem is independent of the training task and thus it is robust to its changes. We then show that this objective can be re-expressed in the form of a non-adversarial offline loss which can be optimized using standard supervised optimization techniques at scale without any need for reward model and online inference. We show the effectiveness of SRPO in terms of AI Win-Rate (WR) against human (GOLD) completions. In particular, when SRPO is evaluated on the OOD XSUM dataset, it outperforms the celebrated DPO by a clear margin of 15% after 5 self-revisions, achieving WR of 90%.

来源:http://arxiv.org/abs/2406.01660v3

The Influencer Next Door: How Misinformation Creators Use GenAI

Advances in generative AI (GenAI) have raised concerns about detecting and discerning AI-generated content from human-generated content. Most existing literature assumes a paradigm where 'expert' organized disinformation creators and flawed AI models deceive 'ordinary' users. Based on longitudinal ethnographic research with misinformation creators and consumers between 2022-2023, we instead find that GenAI supports bricolage work, where non-experts increasingly use GenAI to remix, repackage, and (re)produce content to meet their personal needs and desires. This research yielded four key findings: First, participants primarily used GenAI for creation, rather than truth-seeking. Second, a spreading 'influencer millionaire' narrative drove participants to become content creators, using GenAI as a productivity tool to generate a volume of (often misinformative) content. Third, GenAI lowered the barrier to entry for content creation across modalities, enticing consumers to become creators and significantly increasing existing creators' output. Finally, participants used Gen AI to learn and deploy marketing tactics to expand engagement and monetize their content. We argue for shifting analysis from the public as consumers of AI content to bricoleurs who use GenAI creatively, often without a detailed understanding of its underlying technology. We analyze how these understudied emergent uses of GenAI produce new or accelerated misinformation harms, and their implications for AI products, platforms and policies.

来源:http://arxiv.org/abs/2405.13554v2

Hints-In-Browser: Benchmarking Language Models for Programming Feedback

Generation Generative AI and large language models hold great promise in enhancing programming education by generating individualized feedback and hints for learners. Recent works have primarily focused on improving the quality of generated feedback to achieve human tutors' quality. While quality is an important performance criterion, it is not the only criterion to optimize for real-world educational deployments. In this paper, we benchmark language models for programming feedback generation across several performance criteria, including quality, cost, time, and data privacy. The key idea is to leverage recent advances in the new paradigm of in-browser inference that allow running these models directly in the browser, thereby providing direct benefits across cost and data privacy. To boost the feedback quality of small models compatible with in-browser inference engines, we develop a fine-tuning pipeline based on GPT-4 generated synthetic data. We showcase the efficacy of fine-tuned Llama3-8B and Phi3-3.8B 4-bit quantized models using WebLLM's in-browser inference engine on three different Python programming datasets. We will release the full implementation along with a web app and datasets to facilitate further research on in-browser language models.

来源:http://arxiv.org/abs/2406.05053v1

RU-AI: A Large Multimodal Dataset for Machine Generated Content

Detection The recent advancements in generative AI models, which can create realistic and human-like content, are significantly transforming how people communicate, create, and work. While the appropriate use of generative AI models can benefit the society, their misuse poses significant threats to data reliability and authentication. However, due to a lack of aligned multimodal datasets, effective and robust methods for detecting machine-generated content are still in the early stages of development. In this paper, we introduce RU-AI, a new large-scale multimodal dataset designed for the robust and efficient detection of machine-generated content in text, image, and voice. Our dataset is constructed from three large publicly available datasets: Flickr8K, COCO, and Places205, by combining the original datasets and their corresponding machine-generated pairs. Additionally, experimental results show that our proposed unified model, which incorporates a multimodal embedding module with a multilayer perceptron network, can effectively determine the origin of the data (i.e., original data samples or machine-generated ones) from RU-AI. However, future work is still required to address the remaining challenges posed by RU-AI. The source code and dataset are available at https://github.com/ZhihaoZhang97/RU-AI.

来源:http://arxiv.org/abs/2406.04906v1

齐思

齐思头条2024/06/10「无MatMul LLM减少10倍内存消耗,Block Transformer推理吞吐量提升10-20倍,LLMs无法解决常识问题,LangChainAI展示PDF表格提取,OpenAI移除Sky语音功能」

Twitter:

消除LLMs中的MatMul操作 :一篇突破性论文声称可以完全消除大型语言模型(LLMs) 中的MatMul操作 ,同时保持性能,显著减少超过10倍的内存消耗。提出的无MatMul LLM 使用三元累加 和优化的GRUGLU 单元,显示出与Transformer++ 模型竞争的性能,并具有硬件效率的潜力,详细信息见来源

Block Transformer架构展示显著增益Block Transformer架构 在推理吞吐量方面比传统transformers提高了10-20倍 ,通过一种新颖的全局到局部建模方法优化语言模型推理。该架构通过将昂贵的全局建模隔离到较低层,并在上层应用快速局部建模,减少了推理瓶颈,详细信息见Twitter帖子

Alice in Wonderland问题揭示LLM推理缺陷 :一项研究表明,最先进的LLMs,包括GPT-3.5/4和Claude,无法解决简单的常识问题 如"Alice in Wonderland (AIW)问题",尽管在标准化基准测试中得分很高。这一差异强调了需要新的推理基准来更好地检测和解决LLMs的推理弱点,详细信息见Twitter帖子

LangChainAI的PDF表格提取 :LangChainAI展示了如何从PDF中提取表格信息并使用Llama3 进行总结,展示了LLMs 在非结构化环境中的常见用例。更多细节见他们的tweet

OpenAI的Sky Voice和Studio交易OpenAI暂时移除了Sky语音功能 ,因为正在与多家工作室就Sora的使用进行谈判。这些交易预计很快会宣布,突显了AI生成语音在媒体中的商业兴趣和潜在应用,详细信息见来源

Hugging Face和Pollen Robotics的开源机器人Hugging FacePollen Robotics 推出了他们的第一个项目,一个开源机器人 ,旨在执行家务。这款机器人代表了多模态AI系统 发展的重要一步,能够集成各种数据流以实现实际应用。更多信息见VentureBeat文章

中国在开源AI方面的进展 :尽管硅谷 存在抵制,中国开源AI 方面取得了显著进展,超越了Facebook的Llama-3 ,推出了Qwen2 72B 模型。这一发展突显了中国在AI技术方面的快速进步,详细信息见来源

Claude的角色发展 :AnthropicAI在Chris Olah分享的详细文章中讨论了塑造其AIClaude 角色的过程。文章探讨了AI应具备的性格特征,详细信息见来源

短路方法增强模型鲁棒性 :Ethan Perez和Dan Hendrycks介绍了短路 ,一种替代RLHF和对抗训练的新方法,显著增强了模型的鲁棒性。该方法在tweet中进行了讨论。

重建GPT架构在电子表格中Carlos E. Perez 在电子表格中重建了GPT架构 ,名为nanoGPT ,由**@karpathy** 设计,约有85,000个参数 。该模型非常适合学习transformers 的工作原理,无需编码即可探索,详细信息见来源

微软Office 2007漏洞发现 :分享了发现第一个微软Office 2007漏洞 的故事,强调了安全研究 的重要性以及识别和缓解广泛使用软件漏洞的持续努力。完整故事见tweet by Laughing_Mantis

实时浏览器内语音识别 :OpenAI的Whisper模型现在支持使用Transformers.jsONNX Runtime Web 进行实时、浏览器内语音识别 ,能够跨100种语言进行多语言转录 。该模型完全在设备上运行,确保数据不会离开用户设备,详细信息见tweet by @flngr@osanseviero

RAG系统中的查询理解 :@kingzzm提供的综合资源讨论了在RAG系统中添加查询重写层 以更好地处理复杂查询。它概述了三种关键模式:将复杂问题分解为子问题,通过查询重写生成语义嵌入的答案,并使用回溯更有效地回答一般问题。更多细节见来源

开放源代码机器人和AI :Teknium1强调了开源机器人 的重要性,突出了AI在推进机器人技术中的作用。讨论见帖子

WEBINSTRUCT数据集用于指令数据提取 :Philipp Schmid介绍了WEBINSTRUCT ,一个由爬取的网页数据创建的1000万高质量指令数据集,无需人工注释或GPT-4。实现包括使用自定义训练模型从预训练网页语料库中召回相关文档。更多信息见推文

视频生成和AI的进展视频生成 的进展显著,工具如Sora, Veo, 和 Kling 被比作早期的GPT-2。AI在视频中的未来潜力包括推理、链式思维、多模态泛化和物理模拟 ,这可能会革新机器人、教育和材料设计 等领域。更多细节见tweet by NandoDF

LLM预训练中的课程学习和数据混合Cwolferesearch 讨论了数据混合 在预训练期间对大型语言模型(LLMs)性能的显著影响。最近的研究强调了课程学习 的效率,其中数据的组成在训练过程中发生变化,以及领域上采样 ,在训练结束时增加领域特定数据的权重,显著提高了LLM的质量。详细见Twitter线程

使用RAG比较Llama-3和QwenAkshay PachaarJerry Liu 提出使用检索增强生成(RAG) 来比较Llama-3Qwen 模型的性能。该方法旨在提供每个模型的优缺点的详细分析,详细信息见来源

构建LLMs一年的经验总结 :顶级从业者的史诗级合作结果是关于**"构建LLMs一年的经验总结"** 的三部分系列文章,发表在**@OReillyMedia** 上。该系列涵盖了关于提示、RAG工作流、缓存、微调、评估、护栏和监控的最佳实践,以及可持续和可靠部署的策略。系列文章可从这里访问。

基础代理作为决策制定的范式转变 :研究人员提出基础代理 作为跨物理和虚拟世界的通用代理,类似于语言任务的LLMs。这些代理旨在通过基于世界知识的推理提供统一的策略接口和决策过程,以克服传统AI决策系统的局限性,详细信息见Twitter帖子

LLM安全问题和短路 :Andy Zou Jiaming声称没有LLM是安全的 ,揭示了一年前他们发布了一种自动越狱工具 ,能够破解所有主要的LLMs。他介绍了短路 ,这是第一个对抗性鲁棒的对齐技术,详细信息见他的帖子

MIT的鲸鱼AI研究MIT科学家利用AI解码抹香鲸的复杂通信系统 ,揭示了类似人类的通信模式。这一突破可能显著推进我们对海洋生物学的理解以及AI在解码非人类语言中的应用,详细信息见来源

Qwen2 AI模型发布阿里巴巴的Qwen2 AI模型 已经发布,包含五种不同大小的模型,支持27种语言,并在代码和数学方面增强了能力。值得注意的是,除了Qwen2-72B之外,所有模型现在都采用Apache 2.0许可证 ,促进开源开发,详细信息见来源

生产中的模型测试的交错实验交错实验 被强调为在生产中测试机器学习模型 的稳健策略。该方法涉及同时部署遗留模型和新候选模型,在响应用户时交错它们的推荐,并跟踪用户交互以确定优越的模型。此方法在tweet by @svpino中进行了详细阐述,并在另一tweet by @svpino中进一步强调。

Decoder-Only Transformers的弱点 :@fedzbar在其@GoogleDeepMind实习期间领导的研究揭示了Decoder-Only Transformers 在复制和计数等任务中的基本弱点。该研究还提出了简单的方法来提高其性能,详细信息见tweet by PetarV_93

HackerNews:

基因疗法恢复遗传性耳聋儿童的听力 链接:本文讨论了一项临床试验,其中基因疗法成功恢复了遗传性耳聋儿童的听力。

讨论亮点:

  • 作用机制 :该疗法涉及注射一种腺相关病毒(AAV) ,该病毒被设计为携带并传递功能性的人类OTOF转基因 到儿童的内耳中。

  • 基因整合 :一些病毒,如慢病毒和AAV ,将其DNA注入细胞并将其载荷DNA直接拼接到细胞的染色体中,使基因表达在细胞或其后代存活期间永久存在。

  • CRISPR技术 :CRISPR被强调为一种工具,帮助将DNA整合到基因组中的特定位置,由特定序列引导。

  • 未来潜力 :人们对基于AAV和CRISPR 的其他治疗方法的潜力感到兴奋,并对应用于如ALS等疾病的兴趣浓厚。

  • 伦理和实际考虑 :讨论包括在解决当前健康问题 和探索美容基因改造 之间的平衡。一些人主张在追求如翅膀或其他非必要改造之前,先解决现有的健康问题。

Betula 链接:Betula是一款免费的联邦自托管单用户书签软件,旨在组织书签或维护链接日志。讨论亮点:

  • 书签管理器 :用户分享了各种替代方案,如Grimoire, BookmarkOS, Wakelet, Raindrop, Booky, Knowies, CarryLinks, Zotero, Pinalist, Ggather, Lasso, OneKeep ,以及一个定制解决方案Django-link-archive

  • 联邦和搜索 :一位用户尝试使用ActivityPub 进行联邦化的类似项目,但发现其复杂,选择了更简单的HTTP/REST 模型。目标是一个独立索引的高质量网页的小型联邦。

  • 书签问题 :常见问题包括忘记书签和需要基于上下文的检索 。建议的解决方案包括纯文本可搜索快照页面内容的AI分析

  • 标签和搜索 :用户表达了对标签书签 和更好与浏览器搜索功能集成的需求。Firefox支持标签但缺乏描述和移动支持。

  • 定制解决方案 :一些用户构建了自己的工具,如用于可视化和组织书签的Showboard ,以及用于在一页上显示所有书签以便于访问和搜索的One Page Favorites

Discord:

ComfyUI_LLMVISION CompromiseComfyUI_LLMVISION 库被Nullbulge 组织入侵,可能影响已安装用户。该库集成了GPT-4Claude 3 模型用于图像和文本交互。详细信息

Layer Pruning in LLMs :通过插值小模型的权重矩阵初始化大模型,可节省50%计算成本 ,提高训练效率,参考论文Learning to Grow Pretrained Models for Efficient Transformer Training

Sign Descent Optimization :使用Grokfast-EMA 算法的符号下降精确恢复LION 优化器,详见论文Noise Is Not the Main Factor Behind the Gap Between SGD and Adam on Transformers, but Sign Descent Might Be

StableAudioWebUI Installation and FeaturesStableAudioWebUI 提供一键安装程序,支持Float 16 低显存推理和多种采样器类型。安装链接

LangChain and DashScope RerankerLangChainDashScope Reranker 通过过滤无关内容提高搜索准确性,适用于信息密集环境。详细信息

BitBLAS Speedup BenchmarkBitBLAS 在矩阵操作中显著优于供应商库,特别是在float16xnf4 GEMVGEMM 中,性能提升达4倍基准测试

DecoupleQ for 2-bit QuantizationDecoupleQ 通过将参数分解为整数和浮点数实现2位后训练量化,包含CUDA内核仓库链接

Real-time in-browser speech recognition with OpenAI Whisper :使用Transformers.jsONNX Runtime Web 实现的OpenAI Whisper 实时浏览器内语音识别,支持多语言转录。演示和源码

Training LoRAs and CheckpointsLoRAs 可用4GB VRAM 训练,成本约为**$1** ,而Checkpoints 至少需要12GB VRAM 。详细信息。

Layer Pruning Strategy :移除LLMs中多达一半的层对性能影响最小,建议使用QLoRA 等参数高效微调方法修复模型。参考论文

LangChain RAG WorkflowLangChainRAG 工作流涵盖文档加载、文本分割、嵌入和存储,支持100多种文档加载器。文档加载器数据连接

Homomorphic Encryption and Zero-Knowledge Proofs :讨论了同态加密零知识证明 在保护计算任务隐私中的应用,尽管计算开销大。详细信息。

Stop Strings Handling in LM StudioLM Studio 需立即响应停止字符串,问题与llama.cpp 后端相关,建议应用端字符串解析解决。详细信息。

Flash Attention for Qwen2 Model :建议使用ChatML 并启用Flash Attention 以避免Qwen2 模型的性能问题。详细信息。

Intel IPEX-LLM for LLM AccelerationIntel IPEX-LLM 库支持在Intel CPU和GPU上低延迟运行LLMs,集成llama.cppHuggingFace transformersLangChain库链接

Training Cross-Encoders with Sentence-Transformer :讨论了使用最新sentence-transformer 训练交叉编码器的经验,聚焦于高级NLP模型训练技术。详细信息。

Visualization Tool for Research Topics :MIT开发的可视化工具帮助记者识别未被媒体覆盖的热门研究话题,工具开源并接受反馈。工具GitHub仓库

Model Arithmetic for Fine-Tuning :通过计算L3 baseL3 instruct 模型权重差异进行微调,效果优于直接微调instruct 模型。详细信息

LangChain and DashScope RerankerLangChainDashScope Reranker 通过提高文档检索效率增强搜索能力。详细信息

VNTL Leaderboard for Japanese Visual Novel TranslationVNTL 排行榜根据128行翻译的余弦相似度评估LLMs的日文视觉小说翻译能力。排行榜

Cluster of RK3588 Boards for LLM Training :计划使用RK3588 SoC 创建6-7块板的集群,每块板具有16GB-32GB RAM8 CPU核4 GPU核 ,实现522 TOPS 。详细信息。

HuggingFace & Github:

动漫与图像生成

  • Kivotos XL 2.0 是Yodayo Kivotos XL系列的最新版本,基于Animagine XL V3 开源模型,专注于生成Blue Archive系列 的高质量动漫风格艺术作品。

    • 开发者 :Linaqruf

    • 平台 :ComfyUI或Stable Diffusion Webui

    • :🧨 diffusers

    • 优化 :继承了Animagine XL 3.1的特殊标签,以增强图像生成的质量、评级、创作日期和美学。

    • 训练参数 :硬件、批量大小、梯度累积步骤、噪声偏移、Epochs、UNet学习率、文本编码器学习率、优化器和调度器。

    • 许可证 :Fair AI Public License 1.0-SD

虚拟机与操作系统

  • GitHub-kholia/OSX-KVM:在QEMU/KVM 上运行macOS,无需实际的Mac系统。

    • 支持版本 :Monterey、Ventura、Sonoma

    • 硬件要求 :支持Intel VT-x / AMD SVM、SSE4.1、AVX2的CPU和快速的SSD/NVMe磁盘

    • 安装工具 :CLI方法或virt-manager工具

    • 管理 :libvirt

    • 功能 :缺乏图形加速、可靠的声音子系统和USB 3功能

    • 性能优化 :网络设置、设备透传和其他调整

跨平台与Shell提示

  • GitHub-JanDeDobbeer/oh my posh:最可定制和低延迟的跨平台/shell提示渲染器。

    • 特性 :高度可定制和可扩展的提示主题引擎,跨平台和跨shell

    • 功能 :快速、次要和临时提示功能

    • 文档 :详细的文档和评论

    • 灵感 :借鉴了为PowerShell开发的oh-my-posh2的传统

    • 设计 :减少延迟问题,增强命令行界面

来源:https://news.miracleplus.com/share_link/29546

堕落之创造

该内容深入探讨了一个人对创造力和追求"心流"状态的个人反思,正如Mihaly Csikszentmihalyi所描述的那样。它强调了拥抱生活和工作的一种游戏化和沉浸式方法的重要性,将其比作一个游戏,在这个游戏中,一个人可以是主角、NPC,甚至是怪物。作者提出了从务实的思维方式转变为更大胆和富有想象力的思维方式,暗示这种思维方式可能会导致更充实和富有创意的生活。这篇文章可能会引起对个人发展、创造力和心流心理概念感兴趣的读者的共鸣。它提供了一个独特的视角,说明如何以更沉浸和不受限制的方式参与工作和生活。

来源:https://eccentricity.hedwig.pub/i/duo-luo-zhi-chuang-zao

elvis(@omarsar0):您的语言代理已经知道如何实现高级目标,提出了SelfGoal框架,旨在增强基于LLM的代理的能力,以实现高级目标。LLMs在基本任务上表现良好,但在没有详细信息的情况下,很难实现高级目标。

在最近一条由elvis (@omarsar0)发布的推文中,介绍了一种名为SelfGoal的新框架,旨在增强基于语言模型的代理的能力,以实现高级目标。这一发展尤为引人注目,因为它解决了这类代理面临的常见挑战:在没有详细说明的情况下完成复杂任务的困难。SelfGoal的概念可能对人工智能的未来产生重大影响,潜在地使代理能够在各种应用中更独立、更有效地运作。对于那些对人工智能的进展和语言模型的实际应用感兴趣的人来说,这些内容可能为智能代理不断发展的能力提供宝贵的见解。

来源:https://twitter.com/omarsar0/status/1800183982404829457

rohanpaul_ai(@dilipkay):@rohanpaul_ai 📌 本文调查了当面对一个名为"爱丽丝梦游仙境(AIW)问题"的简单常识问题时,最先进的LLM推理能力出现显著崩溃的情况。

尽管它们在标准化推理基准测试中表现出色,但关键结论是当前的LLM缺乏基本推理能力,现有基准测试未能正确检测到这些缺陷。

《爱丽丝梦游仙境:展示最先进大型语言模型完全推理崩溃的简单任务》

📌 AIW问题是一个简洁的自然语言任务,问道:"爱丽丝有N个兄弟,她还有M个姐妹。爱丽丝的兄弟有多少个姐妹?"虽然人类可以轻松通过常识推理解决(正确答案是M+1),但大多数经过测试的LLM,包括GPT-3.5/4、Claude、Gemini、LLaMA、Mistral等,表现出严重的性能崩溃,经常提供荒谬的答案和推理。

📌 值得注意的是,即使LLM偶尔提供正确答案,它们也经常对错误的解决方案表现出强烈的过度自信,并生成谎言(有说服力但荒谬的解释)来证明他们的错误回答。增强提示或要求模型重新评估答案等标准干预措施未能改善性能。

📌 作者们引入了一个更难的变体称为AIW+,导致所有经过测试的模型,包括GPT-4和Claude 3 Opus,在原始AIW问题上表现相对较好的模型,都出现了更严重的性能崩溃。

📌 这项研究突显了LLM在标准化推理基准测试(如MMLU、ARC、Hellaswag)上得分很高,但在AIW问题上表现不佳的显著差异,表明当前基准测试未能充分反映模型真实的推理能力和弱点。

📌 作者强调机器学习社区需要开发新的推理基准测试,以正确检测这种缺陷,并指导LLM推理能力的改进。他们还强调了完全开放和可重现的训练流程的重要性,包括数据集构成,以便在这一领域进行适当的分析和进展。 迪利普·克里希南(@dilipkay)的推文分享了@rohanpaul_ai强调的一篇论文,深入探讨了最先进的大型语言模型(LLMs)在逻辑推理方面的局限性。该论文指出,尽管这些模型具有先进的能力,但在面对复杂的推理任务时,LLMs会出现显著的崩溃。这对于那些关心人工智能当前边界和开发能够真正模拟人类推理的模型所面临挑战的人来说尤为重要。它提出了关于人工智能和人类认知之间根本差异以及对LLMs实际推理能力的怀疑的重要问题。对于那些对人工智能的能力和局限性持续辩论感兴趣的人,特别是在软件工程和潜在经济影响方面,这篇论文可能提供有价值的见解。

来源:https://twitter.com/dilipkay/status/1799911145945628748

齐思头条2024/06/09「Qwen-2媲美GPT-4,Llama 3代理发布,Llama3-8B+BoT超越Llama3-70B,Inspect评估框架,RAGFlow简化编排」

Twitter:

SpaceX发射22颗Starlink卫星 :SpaceX成功从佛罗里达发射22颗Starlink卫星,标志着其卫星互联网星座项目的又一里程碑。此次发射的视频可以在这里观看,更多细节见官方推文

新顶级开源LLM发布 :Clement Delangue宣布一款新的开源LLM达到了顶级排名,展示了开源语言模型的持续进步。更多详情见公告

Llama 3代理和LangGraph食谱发布 :LangChainAI与Meta合作发布了Llama 3代理的新食谱,用于构建可以本地运行的可靠代理,如在笔记本电脑上。详细信息见公告

Llama3-8B+BoT性能超越Llama3-70B :Rohan Paul分享了Llama3-8B模型结合"Buffer of Thoughts" (BoT)框架在各种任务中表现优于Llama3-70B模型的潜力。完整细节见这里

Qwen-2达到GPT-4级别性能 :Qwen-2被报道在MMLU评分中达到84.32分,媲美GPT-4/Turbo级别模型,微调代码可供审查。更多信息见这里

Inspect:新的中立LLM评估框架 :Hamel Husain赞扬了Inspect,这是一种新的LLM评估框架,具有VSCode插件、可视化和用户界面、可组合性和开发体验等特点。详情见这里

RAGFlow简化RAG编排 :RAGFlow是一种基于深度文档理解的新RAG引擎,通过直观的API和预构建的Docker镜像提供简化的RAG编排和无缝的业务集成。详细信息见文章

vLLM嵌入API支持 :vLLM发布了嵌入API的初步支持,兼容e5-mistral-7b-instruct和类似OpenAI的嵌入客户端,使用户能够高效地执行嵌入操作。公告见推文

MLX-RLHF用于本地LLM微调 :由@andrewsilva9开发的mlx-rlhf项目引入了RLHF,用于在MLX中本地微调LLM,支持软提示和LoRA微调。详细信息见帖子

解码器仅Transformer的弱点 :一项新研究揭示了解码器仅Transformer在复制和计数等任务中的基本弱点,并提出了简单的方法来增强其性能。讨论见推文

CCoT减少LLM响应长度 :Concise Chain of Thought (CCoT)技术在不显著影响问题解决性能的情况下,将GPT-3.5和GPT-4的平均响应长度减少了48.70%。详细信息见论文

Auto-Arena用于LLM评估 :Auto-Arena是一个新的自动化LLM评估项目,使用LLM代理起草问题并进行候选模型之间的多轮对战,结果由LLM委员会评判。介绍见公告

文明VII发布 :Ethan Mollick宣布了文明VII的发布,强调其管理技能而非战斗的重点,类似于《安德的游戏》。一项小实验显示,熟练掌握文明V的商学院学生在规划、组织和解决问题方面表现出色。详细信息见推文

Qwen 2性能超越Llama 3 :Qwen 2取得了72B的评分,超过了Llama 3的70B,并以Apache 2.0许可证发布(72B版本除外)。它在编码和数学方面表现出色,具有128K上下文窗口。详情见reach_vb

政府资助的研发与经济发展 :Yann LeCun强调了政府资助的研发在推动经济增长中的关键作用,自二战以来占据了商业部门TFP增长的显著部分。他强调了非国防研发的资金不足,讨论见推文

构建代理RAG系统 :LlamaIndex推荐了Prince Krampah撰写的关于构建代理RAG系统的综合博客/教程系列,涵盖从基本路由和函数调用到复杂文档上的多步推理。系列详细信息见推文

中国AI进展 :Bill Gurley评论了中国AI的快速进展,特别提到Kuaishou的KLING,它可以轻松生成AI驱动的文本到视频。他批评美国立法可能会阻碍国内创新,讨论见推文

AnthropicAI塑造Claude的性格 :AnthropicAI分享了他们在塑造AI Claude性格方面的方法,强调了AI性格在用户互动中的重要性。更多详情见帖子这里

短路技术增强AI模型的鲁棒性 :Dan Hendrycks介绍了一种称为短路的新方法,使AI模型的鲁棒性提高约100倍。该技术适用于大型语言模型(LLM)、多模态模型和代理,旨在有效防止有害输出。更多信息见这里

LangChainAI的PDF和Llama3集成 :LangChainAI展示了如何通过Ollama使用Llama3从PDF中提取表格信息并进行总结,展示了大型语言模型(LLM)的常见用例。详细步骤和示例见这里这里

Transformer需要眼镜 :由@fedzbar领导的Google DeepMind研究揭示了解码器仅Transformer在复制和计数等任务中的基本弱点,并提出了简单的改进方法。详细发现和方法见推文和相关推文讨论

MIT的MouthPad用于舌控鼠标光标 :由Augmental的Tomás Vega开发的MouthPad使用3D打印的牙套和传感器,使用户能够通过舌头运动控制计算机光标,可能有助于控制机器人手臂和轮椅。此创新详见Popular Science文章,并正在等待FDA批准以扩大可访问性和保险覆盖。

MLX-graphs:Apple的开源图神经网络库 :MLX-graphs是一个为图神经网络(GNN)设计的开源库,优化用于Apple Silicon。它提供快速的GNN训练、可扩展到大图和多设备支持。详细信息见TheYotg的推文

短路:对抗性鲁棒的LLM对齐技术 :短路被介绍为第一种对抗性鲁棒的对齐技术,能够破解所有主要的LLM。此技术详见andyzou_jiaming分享的论文

Llama-3和Qwen的RAG比较 :讨论了使用RAG(检索增强生成)对Llama-3和Qwen的比较,突出了它们的性能和权衡。此比较见akshay_pachaar的推文akshay_pachaar的推文

开源机器人:完整的端到端策略和硬件 :Reachy-1机器人具有几乎完全开源的软件和硬件,包括CC-BY-SA CAO组装。此项目由Thom_Wolfhardmaru推广。

MLX-rlhf:使用RLHF微调LLM :MLX-rlhf是一个新项目,允许使用人类反馈强化学习(RLHF)本地微调LLM,支持软提示和LoRA微调。详情见awnihannun的推文。

LangGraph的代理<>人类协作 :最新的深度学习课程展示了一个Gradio应用程序,可视化代理的历史并允许用户交互,利用LangGraph的内置持久性。此创新的用户体验由hwchase17强调,更多信息见课程链接

使用Project Neo + Adobe Firefly导演AI电影 :icreatelife分享了使用Project Neo结合Adobe Firefly和第三方AI视频工具(如PIKA)导演AI电影的教程。工作流程包括建模简单场景、使用结构参考进行场景放置,并使用电影提示生成视频。详细步骤和示例见推文

稀疏自编码器用于模型理解 :janleike和nabla_theta讨论了稀疏自编码器在理解模型内部方面的前景,特别是将其扩展到GPT-4及更高版本。此进展详见新论文,标志着无监督模型分析的重大进步,见推文

RAG系统的查询重写 :llama_index强调了查询重写在检索增强生成(RAG)系统中的重要性。关键技术包括子问题分解、幻觉答案对齐(HyDE)和回退提示。关于这些方法的综合资源见博客文章

构建代理RAG系统 :llama_index还推荐了Prince Krampah撰写的关于构建代理RAG系统的详细博客和视频教程系列。系列涵盖从基本路由和函数调用到复杂文档上的多步推理,访问链接

CoinbaseDev的OnchainKit库 :jessepollak介绍了由CoinbaseDev团队开发的OnchainKit,这是一个用于链上应用的新库。此工具旨在增强链上开发,更多详情见推文

LAION的Ultravox多模态LLM :juberti宣布了LAION发布的开源多模态LLM Ultravox。初始v0.1版本可供探索,团队正在积极招聘,详情见推文

MatMul-Free语言模型革命性提高效率 :一篇突破性论文声称可以完全消除LLM中的MatMul操作,同时在十亿参数规模上保持强劲性能。提出的MatMul-free LLM用三元累积替代密集层中的MatMul操作,显著降低了计算成本和内存利用率,详细信息见推文

中国在开源AI模型方面的进展 :尽管硅谷在开源AI方面面临挑战,中国已经通过qwen2 72B和kling等模型取得了领先,超越了Facebook的llama3 70B,并采用了Apache2许可证。此发展突显了中国对西方担忧的无视及其在AI创新方面的加速,讨论见推文

正交低秩适应(OLoRA)增强LLM训练 :新的OLoRA技术显著加速了LLM训练的收敛,同时保留了LoRA的效率优势。通过QR分解实现正交初始化,OLoRA实现了更快的收敛和更好的性能,详见推文

Buffer of Thoughts (BoT)框架增强推理 :BoT框架通过在元缓冲区中存储高层次的思维模板,提高了基于LLM的推理的准确性、效率和鲁棒性。此方法在性能上显著优于之前的SOTA方法,详细信息见推文

Elon Musk关于Starship助推器软着陆的消息 :Elon Musk宣布Starship助推器成功在水中软着陆,计划下一次着陆将由塔臂捕获。此太空旅行的重大里程碑见Elon Musk的推文SpaceX的推文

SpaceX的Falcon 9发射Starlink卫星 :SpaceX的Falcon 9计划从加利福尼亚发射20颗Starlink卫星,其中包括13颗具有Direct to Cell功能的卫星。此事件详见SpaceX的公告和后续推文

AI与未来公司 :Bindu Reddy强调,未来的顶级公司将主要由AI和少数懂得大规模应用AI的聪明人运营。她建议学习应用AI并开始自动化流程,讨论见推文

机器学习工程 :Santiago分享了关于硬核机器学习工程的见解,推荐了一本涵盖SVD、线性回归和PCA等基本主题的书。他强调了在规模上使智能模型工作的重要性,见推文

怪异书呆子与知识机构 :Garry Tan讨论了为能够解决世界问题但常被传统系统阻碍的怪异书呆子创造安全空间的重要性。他主张在知识机构中明确支持怪异书呆子的规范,详见推文

HackerNews:

南极水基础设施 链接: 本文讨论了在南极提供淡水所使用的独特且具有挑战性的方法,包括在极低温度下融化雪。

讨论重点:

  • 能量需求: 将1加仑水从-60°F加热到50°F需要268瓦时 的能量。固态到液态的相变也需要大量能量,每加仑350瓦时

  • 燃料类型: 麦克默多站使用柴油 ,而南极站使用基于煤油的JP8喷气燃料 ,并添加了适用于零下温度的添加剂,特别是一种称为AN8 的北极配方。

  • 历史背景: 麦克默多站以前使用核反应堆 供电,但由于高成本和环境问题而被废弃。清理工作涉及移除12,000吨受污染的岩石

  • 废物管理: 废水被泵回雪层,形成充满原污水的大型沉洞。由于将废物运回的高能耗,这种方法被选择为替代方案。

  • 仪器设备: 南极的水处理厂使用华氏度 进行温度测量,可能是因为设备来自美国供应商。

灾难险些发生,飞机在最后几秒内清除跑道 链接: 一架由TUI运营的波音飞机在起飞时由于推力设置错误,险些发生灾难,机上有163名乘客。

讨论重点:

  • 推力设置错误: 飞机以84.5% N1而不是所需的92.8% N1 的推力设置起飞,导致旋转时间危险地延迟,仅以10英尺的高度清除跑道。

  • 已知问题: 自动油门断开 是由于1号发动机的ASM(自动油门伺服电机)存在已知故障,波音公司对此进行了记录并发布了指导。

  • 飞行员错误: 尽管SOP(标准操作程序)要求在60节和80节时进行推力检查,但飞行员错过了这些检查 ,导致了这一事件。

  • 设计批评: 有人批评波音设计了一个可能在关键时刻失效的系统,建议如果自动系统可能失效,手动设置应为默认

  • 人因工程: 这一事件强调了人因工程 在航空中的重要性,突显了设备可靠性和飞行员培训对安全至关重要。

Discord:

ComfyUI Setup and Custom Nodes :详细指南介绍了如何设置ComfyUI 并安装自定义节点,涵盖安装、更新和组织工作流以提高效率和清晰度。更多信息请参考Olivio Sarikas的教程

ComfyUI StableAudioSampler :@magenta6分享了一个ComfyUI工作流链接,用于新的Stable Audio Open 1.0 Sampler ,需要至少7GB VRAM,并使用HuggingFace加载模型。

Auto Evol-Instruct for LLMs :@voidlunaa分享了WizardLM团队 的新论文,详细介绍了Auto Evol-Instruct 方法,该方法自动化了指令数据集的演变,超越了人类设计的方法。详细内容请参考论文

LSP-AI: Open Source Language Server for AI-Powered Editors :@jsarnecki介绍了LSP-AI,一个将AI功能集成到编辑器(如VS Code、NeoVim和Emacs)中的语言服务器,支持多种LLM后端。

Model Quantization Differences :@wanxiang_chen询问了**_0, _K_M, 和 _K_S模型** 之间的区别,指出更高的量化通常会带来更好的质量。

GPU Isolation Techniques in ROCm :@cancerous1分享了一个详细指南,介绍了如何使用环境变量隔离GPU,包括Docker隔离和GPU直通虚拟机。

Command R and R+ Models :@nick_frosst澄清了Command R和R+ 是Cohere最新的模型,超越了原始的CommandCommand Light 模型。更多信息请参考Cohere Model List

Censorship in LLMs :@brknclock1215和@voidlunaa讨论了政治偏见国家强制审查 在LLMs中的区别,指出美国政府不像中国政府那样对模型(如Alibaba和01AI)实施审查。

Hybrid Mode with Qdrant :@zinoubm讨论了在混合模式下运行LlamaIndexQdrant 时的上传过程缓慢问题,提到启用GPU使用需要初始配置,参考FastEmbed文档

Gemini Chat Completions API Integration :@jbstanley2004分享了一个指南,介绍如何将Gemini Chat Completions APIOpenAI库 集成,允许在不更改代码的情况下在OpenAI和Gemini模型之间无缝切换。详细内容请参考指南链接

Supervised Fine-Tuning (SFT) with TRLSFTTrainer 支持配置如Flash AttentionLoRANEFTune ,提高性能。详细信息请参考TRL文档

Continued Pretraining with UnslothUnsloth库 加速了QLoRA/LoRA微调速度2倍,并减少60%的内存使用,支持LlamaMistral 模型。更多信息请参考Unsloth发布

Deque Struct Proposal in Mojo :@gabrieldemarmiesse提出了一个deque结构的建议,采用环形缓冲区实现,简化了实现过程。

UnsafePointer Alignment Issue :@sa_code指出Mojo中的新UnsafePointer类型缺乏在其alloc函数中指定alignment的方法,参考UnsafePointerLegacyPointer

UTF-8 Character Iteration in Mojo :@forfudan询问在Mojo中迭代所有有效UTF-8字符的方法,@lukashermann.com确认此功能尚未实现,但已列入路线图。

AI Safety Measures for Self-Replicating Systems :@vbwyrde强调了在自我复制AI中需要的安全措施,关注可扩展监督鲁棒性和可纠正性价值学习递归奖励建模能力控制 。详细信息请参考80000hours.org问题简介

Qwen2-72B Quantization Issues :@azure2089和@theo77186指出Qwen2-72B 量化模型较大,因为down_proj张量IQ4_NL (4.5bpw) 量化,而Llama3-70B 则以IQ1_S (1.56bpw) 量化。

LLM Data Structure Representation :@deoxykev探讨了LLMs对复杂数据结构的理解,普遍认为Pydantic 因其可读性和高效的token使用而优于JSON schema

Inpainting for Text Correction :@madame_architect建议使用inpainting 来修复图像中的文本,特别是当文本位于小区域或需要多次修正时。

Model Recommendations for RTX 4090 :@tomy300询问了适用于Asus ROG Strix GeForce RTX 4090 OC 24GB 的最佳模型,@hailey推荐了Codestral-22B-v0.1模型,建议使用Q6_K (18.25GB)以获得非常高的质量,或Q4_K_M (13.34GB)以获得良好的质量。

Tool Call Efficiency :@thatrealdank分享了使用**"reply_to_user"** 函数生成"角色内"回复比集成的**"directly_answer"** 函数更有效,特别是当包含其他工具调用时。

Adding Documents to VectorStoreIndex :@anuj_50234寻求将额外的PDF添加到现有VectorStoreIndex的方法,指出当前文档中关于add_documents()函数的缺失。

HuggingFace & Github:

人工智能与技术创新

  • nomic-embed-vision-v1.5 是一个 高性能的视觉嵌入模型 ,与 nomic-embed-text-v1.5 共享相同的嵌入空间。这种多模态集成使视觉和文本数据的无缝融合成为可能,在某些基准测试中 表现优于 OpenAI 的 CLIP 模型。通过 Nomic Atlas 地图可以可视化和比较Vision和Text嵌入空间 ,并且提供了一个 API,可以通过 Python 客户端生成嵌入,适用于多模态检索。

  • Qwen2-7B-Instruct-GGUFQwen 大型语言模型的新成员,在 语言理解、生成 以及 多语言能力 等方面表现优异,超过了大多数开源模型。基于 Transformer 架构,提供 fp16 模型和 GGUF 格式的量化模型,便于高效使用。推荐通过 llama.cpp 进行克隆和安装。

  • pyvideotrans 项目是一个视频翻译配音工具,可以将视频从一种语言翻译为另一种语言,并自动生成和添加 该语言的字幕和配音 。支持多种语音识别和文字翻译模型(如微软、Google、百度、腾讯等),以及多种文字合成语音模型(如 Microsoft Edge、Google、Azure AI 等)。支持的语言包括中文简繁、英语、韩语、日语等多种语言,适用于翻译视频并配音、音频或视频转字幕、批量字幕创建配音等多个用途。

来源:https://news.miracleplus.com/share_link/29481

小互

苹果发布 Apple Intelligence 智能助手 深度个性化 支持跨应用交互操作

苹果发布 Apple Intelligence 智能助手 深度个性化 支持跨应用交互操作

来源:https://xiaohu.ai/p/9344

Aurora:微软发布首个大气基础大模型 不到1分钟生成10天的高分辨率天气预报

Aurora:微软发布首个大气基础大模型 不到1分钟生成10天的高分辨率天气预报

来源:https://xiaohu.ai/p/9332

科学家发现 AI 正在学习撒谎和欺骗 似乎越来越擅长故意撒谎了

科学家发现 AI 正在学习撒谎和欺骗 似乎越来越擅长故意撒谎了

来源:https://xiaohu.ai/p/9324

一组由GPT-4组成的智能代理团队 自主破解零日安全漏洞 成功率达到53%

一组由GPT-4组成的智能代理团队 自主破解零日安全漏洞 成功率达到53%

来源:https://xiaohu.ai/p/9316

UltraMedical:一个大规模、高质量的生物医学指令数据集

UltraMedical:一个大规模、高质量的生物医学指令数据集

来源:https://xiaohu.ai/p/9309

宝玉

使用大语言模型 (LLMs) 构建产品一年后的经验总结 [译]

现在是使用大语言模型 (LLMs) 构建产品的激动人心的时刻。在过去的一年中,LLMs 的表现已经"足够好"可以应用于现实世界。LLMs 改进的速度,加上社交媒体上的大量演示,将推动预计到 2025 年 AI 投资达到 2000 亿美元。LLMs 的广泛可用性,让每个人,而不仅仅是机器学习工程师和科学家,都能在他们的产品中构建智能。虽然构建 AI 产品的门槛已经降低,但要创建那些不仅仅是演示效果好的产品,仍然充满挑战。

来源:https://baoyu.io/translations/llm/what-we-learned-from-a-year-of-building-with-llms

测试 Chrome 内置 Gemini Nano 大语言模型 (4bit 3.25B) 的方法

如何测试 Chrome 内置的 Gemini Nano 大语言模型

来源:https://baoyu.io/blog/ai/how-to-enable-gemini-nano-for-chrome

问答:如何使用 GPT 知道我写 R 代码?

我用文字描述的方式请教 copilot 指导我写 R 代码(科研作图用),但效果不好。与此同时我查到一现成的完美代码,但因为看不懂,无法根据实际情况调整,所以也无法复现。这个时候我想让 copilot 帮我协调一下,即用现成的代码基础上根据我的说明进行调整,promote 我应该一次性说清楚,还是分多次?

来源:https://baoyu.io/blog/ai/qa-how-to-use-gpt-to-write-code

问答:有校对好的视频文稿如何用文稿纠正字幕错误?

我有校对好的视频文稿,但是 Whisper 生成的字幕有错误,我该如何用文稿纠正字幕错误?

来源:https://baoyu.io/blog/prompt-engineering/qa-how-to-correct-subtitle-with-text

什么是提示词注入攻击? [译]

我们将介绍提示词注入的工作原理、常见类型以及潜在的风险和后果。你将了解提示词注入如何使得系统生成错误信息、编写恶意软件,甚至可能导致数据泄露和系统远程接管。视频还会探讨应对提示词注入的多种方法,包括数据审查、最小权限原则、人类反馈强化学习等。

来源:https://baoyu.io/translations/transcript/what-is-a-prompt-injection-attack

Github

Codium-ai/cover-agent

CodiumAI Cover-Agent: An AI-Powered Tool for Automated Test Generation and Code Coverage Enhancement! 💻🤖🧪🐞

来源:https://github.com/Codium-ai/cover-agent

BuilderIO/micro-agent

An AI agent that writes (actually useful) code for you

来源:https://github.com/BuilderIO/micro-agent

openrecall/openrecall

OpenRecall is a fully open-source, privacy-first alternative to proprietary solutions like Microsoft's Windows Recall. With OpenRecall, you can easily access your digital history, enhancing your memory and productivity without compromising your privacy.

来源:https://github.com/openrecall/openrecall

Bklieger/groqbook

Groqbook: Generate entire books in seconds using Groq and Llama3

来源:https://github.com/Bklieger/groqbook

SawyerHood/tlbrowse

Generate imagined websites on an infinite canvas

来源:https://github.com/SawyerHood/tlbrowse


本文档由扣子生成,资讯版权属于原作者。 豆包机器人链接:https://www.coze.cn/store/bot/7343089859382444051?bot_id=true 一支烟花社区提供技术支持,了解更多点击:https://sourl.cn/MsNyXj

相关推荐
赛丽曼16 分钟前
机器学习-K近邻算法
人工智能·机器学习·近邻算法
啊波次得饿佛哥2 小时前
7. 计算机视觉
人工智能·计算机视觉·视觉检测
XianxinMao2 小时前
RLHF技术应用探析:从安全任务到高阶能力提升
人工智能·python·算法
Swift社区3 小时前
【分布式日志篇】从工具选型到实战部署:全面解析日志采集与管理路径
人工智能·spring boot·分布式
Quz3 小时前
OpenCV:高通滤波之索贝尔、沙尔和拉普拉斯
图像处理·人工智能·opencv·计算机视觉·矩阵
去往火星3 小时前
OpenCV文字绘制支持中文显示
人工智能·opencv·计算机视觉
海里的鱼20223 小时前
yolov11配置环境,实现OBB带方向目标检测
人工智能·yolo·目标检测·计算机视觉
道友老李4 小时前
【自然语言处理(NLP)】介绍、发展史
人工智能·自然语言处理
有Li4 小时前
基于深度学习的微出血自动检测及解剖尺度定位|文献速递-视觉大模型医疗图像应用
人工智能·深度学习
熙曦Sakura4 小时前
【深度学习】微积分
人工智能·深度学习