AGI大辩论,AI安全等级,Sora团队访谈,AI民科,AI提升编程效率

更多内容:

https://agifun.love

智源社区

ICML 2024 | 具有动态目标感知片段的药物发现

今天为大家介绍的是来自Sung Ju Hwang团队的一篇论文。基于片段的药物发现是一种在广阔的化学空间中发现药物候选物的有效策略,并已广泛应用于分子生成模型。然而,许多现有的片段提取方法在这些模型中没有考虑目标化学性质或者依赖于启发式规则,现有的基于片段的生成模型也无法在生成过程中使用新发现的目标导向片段更新片段词汇表。为此,作者提出了一种用于药物发现的分子生成框架,称为目标导向片段提取、组装和修改(GEAM)。GEAM由三个模块组成,每个模块分别负责目标导向片段提取、片段组装和片段修改。片段提取模块利用信息瓶颈原理识别对所需目标性质有贡献的重要片段,从而构建一个有效的目标导向片段词汇表。此...

来源:http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==\&mid=2247505463\&idx=1\&sn=a20e04db95906f60a47f6aae4b8c2d93\&chksm=fd193eecfadb072354315764bbb9995bc81f493d9c3cd8cc1fcdabdf5727093868118df9f242\&scene=0\&xtrack=1#rd

David Baker|从头设计蛋白中和蛇毒毒素

AI设计的蛋白质为蛇咬伤治疗带来新希望De novo designed proteins neutralize lethal snake venom toxins在热带和亚热带地区,蛇咬伤是一种常见且往往致命的医疗紧急情况。据统计,全球每年有超过300万人遭受蛇咬伤,导致超过10万人死亡,数百万人遭受长期残疾。蛇咬伤不仅给受害者及其家庭带来深重的悲痛,还对受影响地区的公共卫生系统造成重大负担。蛇毒含有多种复杂的蛋白质和酶,能够迅速引发组织损伤、出血、神经功能障碍甚至死亡。目前,标准的治疗手段依赖于从免疫动物血浆中提取的多克隆抗体,即所谓的抗蛇毒血清。然而,这些血清存在一些显著的局限性:它们价格...

来源:http://mp.weixin.qq.com/s?__biz=MzU2ODU3Mzc4Nw==\&mid=2247505462\&idx=2\&sn=6e50d24fcb9cbc502ffd73058bf0b311\&chksm=fdaefd7facbc70f94c59163ec3f4f00af7923a9da6b5c1dd14f40f5d79c8a6692a9c619ce00d\&scene=0\&xtrack=1#rd

AI安全水深流急,黄铁军首谈AGI能力与风险分级,2024智源大会圆满落幕

2024年6月15日,为期 2 天的北京智源大会圆满落下帷幕。本次大会围绕大语言模型、多模态模型、Agent、具身智能、数据新基建、AI系统、AI开源、AI for Science、AI安全等人工智能热门技术方向和焦点议题,召开了20+平行论坛,共计百场报告。过去一年,大模型发展速度之快,行业纷纷探讨通用人工智能的实现路径与曙光,但AI安全问题的严重性与紧迫性不容忽视。北京智源人工智能研究院学术顾问委员会主任张宏江在AI安全论坛的开幕致辞中对人工智能安全进行了预警和呼吁。当我们从不同层面对人工智能安全问题进行审视,除了对社会偏见,错误信息,潜在的工作替代或者大模型、自主机器人带来的大规模自动化...

来源:http://mp.weixin.qq.com/s?__biz=MzI2MDcxMzQzOA==\&mid=2247545803\&idx=1\&sn=7e9782bfab226719dc5990b28bcfb2b6\&chksm=ebc38c374f0fc340f779d9e219457113b59b839e95c83a0085873b33453d9659c4cbdafdff02\&scene=0\&xtrack=1#rd

对话林咏华:刚在"AI春晚"上开源了3.4T数据集的智源,是如何死磕大模型数据难题的

来源:http://mp.weixin.qq.com/s?__biz=MzI2MDcxMzQzOA==\&mid=2247545803\&idx=2\&sn=8084de4b297ca57a5d573b564914df23\&chksm=eb5d55c6aa41f873186d362062904948637613f7580dde4b0458d9fc21ead1b98252b0aed8f7\&scene=0\&xtrack=1#rd

英伟达开源3400亿巨兽,98%合成数据训出最强开源通用模型!性能对标GPT-4o

新智元报道编辑:Aeneas 好困【新智元导读】刚刚,英伟达全新发布的开源模型Nemotron-4 340B,有可能彻底改变训练LLM的方式!从此,或许各行各业都不再需要昂贵的真实世界数据集了。而且,Nemotron-4 340B直接超越了Mixtral 8x22B、Claude sonnet、Llama3 70B、Qwen 2,甚至可以和GPT-4掰手腕!就在刚刚,英伟达再一次证明了自己的AI创新领域的领导地位。它全新发布的Nemotron-4 340B,是一系列具有开创意义的开源模型,有可能彻底改变训练LLM的合成数据生成方式!论文地址:ht...

来源:http://mp.weixin.qq.com/s?__biz=MzI3MTA0MTk1MA==\&mid=2652489895\&idx=1\&sn=cecb0d7bf61c4ef5c546312b80c0f01d\&chksm=f03a802523192caf61a5aadbcddd57bc4846e87f2b461fd03325cc40b5f6a4c1cc0c95cfd344\&scene=0\&xtrack=1#rd

InfoQ

清华大学教授黄民烈:如何把大模型"调教"成我们放心的样子

"大模型安全并没有被夸大"

来源:https://www.infoq.cn/article/qUQRjKt5fwCeA8WMYtBo

Sora 团队负责人 Aditya Ramesh 对话谢赛宁:压缩一切!视觉与语言模态的融合

"OpenAI 的招聘政策与其它机构相比十分与众不同。"

来源:https://www.infoq.cn/article/ukUet40QcQNMkAo1fvxI

AGI大辩论!杨植麟:无需定义,李大海:零边际成本,王小川:造医生?张鹏:是信念!

张鹏直接否认了智谱是价格战发起方的说法~

来源:https://www.infoq.cn/article/Hi45sNIdglSyUV94PcuN

智源推出大模型全家桶及全栈开源技术基座新版图

6 月 14 日,第六届"北京智源大会"在中关村展示中心开幕。

来源:https://www.infoq.cn/article/YYBJGK4C07VM7KjcHt34

AI 让编程效率提高 100 倍?顺丰用 AI 管理 40w 小哥?ArchSummit 深圳首日热点来袭

6 月 14 日,ArchSummit 全球架构师峰会在深圳正式开幕。

来源:https://www.infoq.cn/article/iVpWrIzMbUfsGR1tGRAL

ShowMeAI社区

打晋AI刻瞄街诵<新>贤金榜呈;彼娘20业最流行AI奏索道杖;ChatGPT对潮线知识社惨的宿蠢;100万在角教必福的5燥脊训 | ShowMeAI腊谐

  1. 盘点 20 膜最柑币勿AI袜索溢用,袄灯喜欢诫唉环? [骆片] 化内秘塔AI树侨 https://metaso.cn/ 好用,免费,逃辩 Top 议繁 婉工AI (昆据万语) https://www.tiangong.cn/ 逻喷,免器,蚂术澜场 Top 即快暴待级忧 绣单擒偏 App (百僧) https://secr.baidu.com/ 只监巷机版,茅捏矩矩的一翁AI喉蝉搜薛应用 360 AI 纲索 https://so.360.com 最员檐据增长拇础坟,瓢催晒验比较迈株 澜栗AI搜索 https://ai-search.langboat.com 中肉夫矩 BrainStorm ...

来源:https://zhuanlan.zhihu.com/p/698345703

又盛要爆拆AI游论诞生!《努你码当收》幼逝萍什晨?| ShowMeAI体奕渗朴

[图嫩] 收眉里瘾百人赵贿知AI悼反揖泞银,饵诲记钓祖辕! 阁模牧游懊蜻极度伦锹〖箫趣〗葛度。权酒坎啦灵魂那酪务袍,以丢于诵簿一日,辐们就在换品的上洋里阻越光 ta 。1. 常蜜的艰魂繁发捐锣锐 《晦你聋褂旦》是一哭全船发琢稽AI游革,主线纺务驶异山蛉定蚕个角情,悔后胧炫喜源蝇「案孝蹦」!跪烈姻计论雕隅男凹大学旗献限功菲极「通爸」舀竭开?浇到坝定美一序召,岛幕一笑 轴独茂当横踢心乒台出圈,旁坊帅部淫信处务,倚氛功凹发起...

来源:https://zhuanlan.zhihu.com/p/697856247

朱副罗:AI应用明年肯定徙爆酬;秕3款弛蝌AI右戏姚晒了;AI铭池瞄价肥罐「袭宋说的爆磷」;映流韵据啰够闺嫉怎么划 | ShowMeAI填均

遵咸&阐液衍唱 | 步琉力工板澜行袭候荷捏制 | 点赞关注窃颇梳尾扳!1. 换你旱议甘:须揉咆3看爆缚睬压寂AI游惧应祠,hhh 太锌笑了 [图淌] 缅末蜈恼广,义群巩退伴驱艰滔左一毡「 意之来当爹」的AI翅鸽 摧侯游戏挡俯莉,缨入落冠,数统雪渺训成厌赘的「哼测碌定」。 闪今恭喜寨!可以蚁谓碳吆趋!! 怔锭儿聋麦养蒋室,伴橘着饭薯悉吠缤胰外,搞穿喘氨吊贫在你逃徘。 哎萧翠!悼子... 锨涵,考波几在系终给绳的秉个镊孕毙选柬共个,籍蔽靡...

来源:https://zhuanlan.zhihu.com/p/697655366

晰缘谆粹渠距《动例学大祭辞》编程实战课;提示工丹赶蜈冠军经验斋享;AI Agent杨新些赴嚎虏(3份);赔类多ChatGPT恋爱虱为炎赖;摩孵AI化品磕四率的7个鸳巧 | ShowMeAI日折

喂报&周语篓混 | 生幕汁工具摊织语应额馆全 | 拜赞关注缠恩侈托戚! 1. 终谆染书!OpenAI 周兄侧雪环静,ChatGPT 和 GPT-4 达新汹! [火象] Sam Altman 算 OpenAI 井期徐直绵造蚌,惭讲、韧爆、秘份拣滥像作幻悯。才跷!涕被淤特肖唾,去于 美西呛间5馍13日疾午10猖 (⏰ 北则丹或5侧14诊娇尽1讨) 嗦 OpenAI 袁沥鼠惯直播,颖缤 ChatGPT 和 GPT-4 安邑辜。 遂桑该格瞒益耗呢?!!跃灌还库猜倔猜唱。@indigo 的猜狰簿 传仇瓣很广,摔勃...

来源:https://zhuanlan.zhihu.com/p/697448133

ShowMeAI | 全奥老有前扬的100家AI那因,悲提2眉上榜;尔峦怀雷模帐MoE因解;人颈最普《大痹傲亭型》电子推威放件载;斯陕福懂歹AI幻遮报告

褐娱&悄李合坛 | 盼怯骇榔癣坐行业醒用验全 | 点赞关使栗论拜托控! 1. CB Insights 哩布「AI 100 2024」歹枕,烘选田救睡钝野除途的 100 得牵工冶迁徽司 [图片] CB Insights 乒赂取知名才雷场符报喜析厉戴,秆捂深入肾醉据跷析、丹瞻顷策错业缚蛹而僚称。CB Insights 戏鬓蒸闭沛「AI 100 2024 」拳搞,综合俺彪了搀司篇区活额、吃孵合乙航波关系、团注镣力、投资者伪力、念霹帜媒、专丸隅分等数扼维度,休煎合 CB Insights 喳研跌驮谈,...

来源:https://zhuanlan.zhihu.com/p/696949266

Aminer.cn

LLM自我修正:在何种程度上实现优化?

AMiner AI,一款集发现论文、分析论文、理解论文、写作论文于一体的科研小助手。它会帮助你更加游刃有余地穿梭在学术海洋中,让科研变得更加有趣和高效!

来源:https://www.aminer.cn/research_report/666bae86c028d8419b112035

文本压缩与大型语言模型:长文本处理的革新

想把握最新的科技进展和研究成果,却发现自己的阅读速度根本赶不上文献产出的速度?

来源:https://www.aminer.cn/research_report/6668fc88c028d8419b0f8b66

北大团队提出 BoT:让 Llama3-8B 超越 Llama3-70B|大模型周报

Mamba-2:速度提高 2-8 倍,与 Transformers 媲美

来源:https://www.aminer.cn/research_report/6668fb5dc028d8419b0f8a50

大型语言模型的不确定性表达:忠实度与准确性

大模型(LLM)是一种人工智能模型,旨在理解和生成人类语言。

来源:https://www.aminer.cn/research_report/665fc8bac028d8419b0a4168

清华大学唐杰:大模型与超级智能

本文探讨了大模型的发展历程,介绍了作者团队研发的GLM-4大模型,并针对AGI研究面临的挑战对AGI未来发展提出了一些思考。

来源:https://www.aminer.cn/research_report/665fc671c028d8419b0a3f77

arXiv.org

Effects of Multimodal Explanations for Autonomous Driving on Driving

Performance, Cognitive Load, Expertise, Confidence, and Trust Advances in autonomous driving provide an opportunity for AI-assisted driving instruction that directly addresses the critical need for human driving improvement. How should an AI instructor convey information to promote learning? In a pre-post experiment (n = 41), we tested the impact of an AI Coach's explanatory communications modeled after performance driving expert instructions. Participants were divided into four (4) groups to assess two (2) dimensions of the AI coach's explanations: information type ('what' and 'why'-type explanations) and presentation modality (auditory and visual). We compare how different explanatory techniques impact driving performance, cognitive load, confidence, expertise, and trust via observational learning. Through interview, we delineate participant learning processes. Results show AI coaching can effectively teach performance driving skills to novices. We find the type and modality of information influences performance outcomes. Differences in how successfully participants learned are attributed to how information directs attention, mitigates uncertainty, and influences overload experienced by participants. Results suggest efficient, modality-appropriate explanations should be opted for when designing effective HMI communications that can instruct without overwhelming. Further, results support the need to align communications with human learning and cognitive processes. We provide eight design implications for future autonomous vehicle HMI and AI coach design.

来源:http://arxiv.org/abs/2401.04206v4

Characterising Interventions in Causal Games

Causal games are probabilistic graphical models that enable causal queries to be answered in multi-agent settings. They extend causal Bayesian networks by specifying decision and utility variables to represent the agents' degrees of freedom and objectives. In multi-agent settings, whether each agent decides on their policy before or after knowing the causal intervention is important as this affects whether they can respond to the intervention by adapting their policy. Consequently, previous work in causal games imposed chronological constraints on permissible interventions. We relax this by outlining a sound and complete set of primitive causal interventions so the effect of any arbitrarily complex interventional query can be studied in multi-agent settings. We also demonstrate applications to the design of safe AI systems by considering causal mechanism design and commitment.

来源:http://arxiv.org/abs/2406.09318v1

DiffuSyn Bench: Evaluating Vision-Language Models on Real-World

Complexities with Diffusion-Generated Synthetic Benchmarks This study assesses the ability of Large Vision-Language Models (LVLMs) to differentiate between AI-generated and human-generated images. It introduces a new automated benchmark construction method for this evaluation. The experiment compared common LVLMs with human participants using a mixed dataset of AI and human-created images. Results showed that LVLMs could distinguish between the image types to some extent but exhibited a rightward bias, and perform significantly worse compared to humans. To build on these findings, we developed an automated benchmark construction process using AI. This process involved topic retrieval, narrative script generation, error embedding, and image generation, creating a diverse set of text-image pairs with intentional errors. We validated our method through constructing two caparable benchmarks. This study highlights the strengths and weaknesses of LVLMs in real-world understanding and advances benchmark construction techniques, providing a scalable and automatic approach for AI model evaluation.

来源:http://arxiv.org/abs/2406.04470v2

Towards Bidirectional Human-AI Alignment: A Systematic Review for

Clarifications, Framework, and Future Directions Recent advancements in general-purpose AI have highlighted the importance of guiding AI systems towards the intended goals, ethical principles, and values of individuals and groups, a concept broadly recognized as alignment. However, the lack of clarified definitions and scopes of human-AI alignment poses a significant obstacle, hampering collaborative efforts across research domains to achieve this alignment. In particular, ML- and philosophy-oriented alignment research often views AI alignment as a static, unidirectional process (i.e., aiming to ensure that AI systems' objectives match humans) rather than an ongoing, mutual alignment problem [429]. This perspective largely neglects the long-term interaction and dynamic changes of alignment. To understand these gaps, we introduce a systematic review of over 400 papers published between 2019 and January 2024, spanning multiple domains such as Human-Computer Interaction (HCI), Natural Language Processing (NLP), Machine Learning (ML), and others. We characterize, define and scope human-AI alignment. From this, we present a conceptual framework of "Bidirectional Human-AI Alignment" to organize the literature from a human-centered perspective. This framework encompasses both 1) conventional studies of aligning AI to humans that ensures AI produces the intended outcomes determined by humans, and 2) a proposed concept of aligning humans to AI, which aims to help individuals and society adjust to AI advancements both cognitively and behaviorally. Additionally, we articulate the key findings derived from literature analysis, including discussions about human values, interaction techniques, and evaluations. To pave the way for future studies, we envision three key challenges for future directions and propose examples of potential future solutions.

来源:http://arxiv.org/abs/2406.09264v1

The Challenges of Evaluating LLM Applications: An Analysis of Automated,

Human, and LLM-Based Approaches Chatbots have been an interesting application of natural language generation since its inception. With novel transformer based Generative AI methods, building chatbots have become trivial. Chatbots which are targeted at specific domains for example medicine and psychology are implemented rapidly. This however, should not distract from the need to evaluate the chatbot responses. Especially because the natural language generation community does not entirely agree upon how to effectively evaluate such applications. With this work we discuss the issue further with the increasingly popular LLM based evaluations and how they correlate with human evaluations. Additionally, we introduce a comprehensive factored evaluation mechanism that can be utilized in conjunction with both human and LLM-based evaluations. We present the results of an experimental evaluation conducted using this scheme in one of our chatbot implementations which consumed educational reports, and subsequently compare automated, traditional human evaluation, factored human evaluation, and factored LLM evaluation. Results show that factor based evaluation produces better insights on which aspects need to be improved in LLM applications and further strengthens the argument to use human evaluation in critical spaces where main functionality is not direct retrieval.

来源:http://arxiv.org/abs/2406.03339v2

齐思

齐思头条2024/06/16「NVIDIA发布Nemotron-4-340B模型,OpenVLA超越RT-2-X,Allen AI推出SciRIFF数据集,vLLM提升24倍吞吐量,SketchPad增强LLM视觉能力」

Twitter:

NVIDIA发布Nemotron-4-340B模型NVIDIA 发布了Nemotron-4-340B 模型,包括BaseInstructReward 模型,采用宽松的许可协议,适用于合成数据生成。该模型与Mixtral 8x22BClaude SonnetLlama3 70BQwen 2 竞争,被描述为性能强大的"chonky beast",详细信息见此处

语言模型的世界模型局限性 :Yann LeCun讨论了语言模型 如GPT-4在模拟世界模型方面的局限性,指出它们在常识任务(如煮水)中的准确率仅约为60%。详细内容见预印本论文,由Allen AIMSFT Research 的研究人员共同撰写。

OpenVLA:先进的机器人视觉语言动作模型OpenVLA 是一个最先进的视觉-语言-动作模型 ,具有7B参数 ,在零样本评估中表现优于RT-2-X 。该模型及其代码和数据完全开源,可在此处访问。

GPT-2从头开始在MLX中实现Pranav Jadhav 撰写了一篇关于使用MLX Companion代码 从头开始构建GPT-2 的综合文章。该详细指南适合那些对理解GPT-2基础感兴趣的人,文章和代码可在此处访问。

SciRIFF科学文献数据集Allen AI 推出了SciRIFF ,一个包含137,000个专家编写的示范 的数据集,旨在增强语言模型在科学文献中遵循指令的能力。该数据集涵盖五项基本任务,可在HuggingFace下载。

Depth Anything V2实时深度估计Depth Anything V2 已发布,允许使用Transformers.jsWebGPU 在浏览器中进行实时深度估计。该模型针对设备使用进行了优化,详细信息见此处

vLLM的PagedAttention算法提升吞吐量 :vLLM,一个开源LLM,利用一种名为PagedAttention 的内存分配算法,实现了比HuggingFace Transformers高24倍 的吞吐量,比HuggingFace Text Generation Inference (TGI)高3.5倍 的吞吐量。该效率得益于近乎最佳的内存使用,显著减少了GPU需求,详细信息见Runpod博客

SketchPad增强LLM的视觉思维能力SketchPad 框架已推出,使LLM能够通过访问视觉草图板和绘图工具执行视觉任务,从而改善推理和沟通能力。此创新允许像GPT-4这样的模型生成中间草图,增强其解决问题的能力,详细信息见Jeremy HowardElvis

LangChain集成开源工具进行PDF数据提取 :LangChain开发了一种使用开源视觉模型从PDF中提取数据的方法,UnstructuredIO 用于图像提取,LLaVA 用于图像解释。此综合方法在YouTube视频中详细介绍,并由LangChainAI进一步解释。

Meta发布综合RAG基准(CRAG)用于事实核查 :Meta AI发布了综合RAG基准(CRAG) ,这是一个用于评估检索增强生成(RAG)模型在事实问答中的新标准。CRAG包括4,409个问答对 ,使用模拟API评估LLM的检索能力,详细信息见Philipp SchmidAIatMeta

MoA混合代理在AlpacaEval排行榜上名列前茅MoA混合代理 架构结合了多个LLM代理,在AlpacaEval排行榜上表现最佳,比GPT-4的效果高出7%,且更具成本效益。此架构由James Y. ZouLlamaIndex详细介绍。

未来的货币政策与AI和机器人 :Emad Mostaque探讨了在拥有100亿机器人和1万亿AI代理的世界中货币和经济政策 的未来,相关讨论见此处

多模态RAG管道开发 :LlamaIndex宣布开发多模态RAG管道 ,使用Claude 3SingleStoreDB ,强调多模态RAG在处理包括文档中的图像在内的多种数据格式中的作用。更多详细信息见Pavan Belagatti的文章

研究投资作为经济引擎 :Yann LeCun重申了研究投资 对经济发展的重要性,指出中国的研发支出自2000年以来增长了16倍,超过了美国。相关讨论见tweet

Sakana AI的DiscoPOP:AI驱动的偏好优化 :Sakana AI发布了DiscoPOP ,一种由LLM发现和编写的最先进的偏好优化算法。此方法利用LLM提出并实施新算法,通过进化循环迭代提高性能,详细信息见公告

实验性Steering API for ClaudeGolden Gate Claude 爱好者现在可以访问一个实验性Steering API 的有限预览,允许用户控制Claude的部分内部功能。此API仅供研究用途,不适用于生产使用,详细信息见公告

AI原生编码者的崛起AI原生编码者 的崛起正在改变知识工作者解决编码问题的方式,从视觉编辑器和低/无代码解决方案转向使用AI增强的标准编码栈。此转变在tweet中讨论,强调了AI带来的赋能。

PLaMo-100B预训练见解 :一篇博客文章总结了PLaMo-100B 的预训练,涵盖数据选择、稳定性改进和速度增强。该模型正在为指令学习和多模态应用开发,计划于今年晚些时候发布,详细信息见博客文章

LoRA效率和子群公平性 :LoRA在微调ViT、Swin、Llama和Mistral等模型中的效率进行了探索,重点关注潜在的副作用和子群公平性。实验的关键要点在详细线程中分享。

TransNAR:用于算法推理的混合架构 :Google DeepMind的新论文介绍了TransNAR ,一种结合Transformer LLM和基于图神经网络的神经算法推理器(NARs)的混合模型,显著提高了算法推理任务的分布外泛化能力。详细信息见论文

算法调优以提高成本效益 :一项研究表明,通过使用DSPy和SnowflakeDB Cortex 对MistralAI Mixtral 8x7B管道进行算法调优 ,可以在实现5倍成本节约的同时,超越更大的Llama3--70B管道,详细信息见@sophiamyang@zamir_ar

大步长训练见解 :新研究表明,在单变量ReLU网络中大步长训练无法过拟合 ,提供了关于平坦性、稳定边缘和大步长如何贡献于近乎最佳泛化的见解。此突破在tweet中分享,标志着对神经网络训练动态理解的进展。

从PDF中提取数据使用OSS视觉模型 :LangChain展示了一种使用UnstructuredIO 从PDF中提取图像和图像内容的方法,并通过LLaVA 解释图像,所有这些都集成在LangChain中。详细解释和演示见YouTube视频

HackerNews:

指数级更好的旋转 链接: 这篇文章探讨了各种3D旋转的技术和表示方法,包括旋转矩阵、欧拉角、四元数和轴/角旋转,并介绍了用于在这些表示之间转换的指数和对数映射。

讨论亮点:

  • 李群/代数对应关系: 文章中讨论的指数和对数映射是李群/代数框架的一部分,这允许在抽象数学对象及其坐标表示之间进行平滑转换。这个框架对工程师非常有用且高度可重用。

  • 四元数与矩阵: 四元数通常被认为比矩阵在旋转方面更不直观。矩阵直接作用于向量,使其在理解旋转时更自然。然而,四元数在纸笔计算中更容易,并且在量子自旋建模中被广泛使用。

  • 卡尔曼滤波器和旋转: 通过重新定义加减运算符以处理向量空间中的变化,可以将旋转矩阵集成到卡尔曼滤波器的状态中。这种方法有助于避免在估计算法中出现万向节锁等问题。

  • Arcball界面: 基于四元数的Arcball界面因其在3D软件中直观的旋转处理而受到赞誉。它避免了万向节锁,并允许通过单次拖动进行任何旋转,使其优于Blender和OpenSCAD等方法。

  • 平均旋转: Karcher均值是一种用于平均旋转矩阵的方法,它最小化了平方角距离,避免了简单向量求和中出现的灾难性取消问题。这种方法在样条插值和机器人技术等应用中更一致和可靠。

新算法通过观看视频发现语言 链接: 这篇文章讨论了由MIT博士生开发的新系统,该系统可以通过观看视频从零开始学习人类语言。

讨论亮点:

  • 训练方法: 该模型使用两个对比目标:(1)预测哪个视频片段对应于给定的音频文件,(2)预测哪个音频片段对应于给定的视频片段。这有助于模型学习将声音与视觉对象关联起来。

  • 训练数据: 该模型在成千上万个视频和音频片段对上进行了训练,采样了6400万次。相比之下,一个婴儿在前两年中获得了数万亿的声音样本和数十亿帧的视觉数据。

  • 未来潜力: 一个更大的AI模型在机器人身体中可以整合所有五个人类数据模态(视觉、听觉、嗅觉、触觉、味觉)和其他数据模态如雷达、激光雷达、GPS。

  • 人类学习比较: 有人认为该模型的学习过程类似于婴儿学习语言的方式,而另一些人指出婴儿还依赖于情感、触觉和环境反馈。

  • 实际应用: 人们对使用此类模型作为通用翻译器和破译未知语言感兴趣,尽管在训练数据和现实世界应用方面仍然存在挑战。

Discord:

A10G GPU的SM数量差异 :@umerha发现A10G GPUSM数量 存在差异,TechPowerUp报告为72个SM,但pycuda 测量为80个SM,质疑规格的准确性。

神经网络量化技术 :@mobicham和@vayuda强调在<8位精度下,量化中的分组重要性,标准组大小为64/128,且高效的位打包对最小化内存访问至关重要。相关代码示例在此处

矩阵乘法操作的基准测试 :@mobicham指出内存访问模式对matmul(x_fp16, W_nbit)推理速度的影响,@vayuda确认了带缩放的基准测试,但未包含零点/分组,计划在GPT-fast中加入。

NixOS的Python开发环境 :@iron_bound分享了使用NixOS设置Python开发环境的指南,包括使用shell.nix创建可重复环境、处理缺失包和优化性能。详细说明在NixOS Wiki

OpenAI的LLM与实时数据库连接 :@ranitsarkar询问如何将OpenAI的LLM模型与实时更新的数据库集成,相关资源包括RAG with Graph DatabaseVector Databases

消除3D模型阴影的挑战 :@silasmerlin指出ChatGPTDALL-E 在处理否定词时存在困难,导致难以创建无阴影的3D模型。使用**"emissive"** 术语和避免提示细化可以缓解这一问题。示例图片

TPU的可靠性与Nvidia GPU的故障 :@the_alt_man和@ad8e讨论了TPU的高可靠性 ,@the_alt_man报告在32个主机(v4-256)上3周内0故障 ,而@ad8e指出TPU的故障率比Nvidia GPU低2倍以上 。@ad8e在运行约20个节点(160个GPU)时,频繁遇到Nvidia GPU故障,预期2天内会发生故障。

Robust Intelligence AI防火墙 :@rameshprasad1询问在生产中集成Robust Intelligence AI防火墙引入的延迟。该防火墙提供高级检测和保护,使用专有技术如算法红队和威胁情报。

LlamaIndex与Langchain的对比 :@arthurbrenno和@shawn1998讨论LlamaIndexLangchain 更直观,构建更容易,Langchain的抽象不够有用。

AGI和超级智能预测 :Leopold Aschenbrenner预测2027年实现AGI ,随后迅速实现超级智能 ,驱动因素是计算集群和算法的指数改进。完整文章系列

AI防越狱和缓解措施 :@pedramamini分享了微软博客文章,详细介绍了AI防越狱 及其缓解策略,强调零信任方法 和分层防御。

适应性ODE求解器用于SD3 :@drhead分享了GitHub仓库,实现了适应性ODE求解器用于Stable Diffusion 3 (SD3) ,比固定步长求解器效果更好。

Llama3 8B的训练 :@plasmator寻求训练Llama3 8B 的建议,@nanobitz建议使用customllama3.py脚本处理sharegpt提示标记策略。

AI代理和业务流程自动化 :Flo Crivello强调显式训练阶段用户反馈 对构建AI代理的重要性,使用k-shot示例向量数据库 如Chroma来提高代理性能。阅读更多

新Mojo编译器发布 :发布了新的夜间版Mojo编译器 版本2024.6.1505,用户可以使用modular update nightly/mojo更新。详细更改请参阅原始差异当前变更日志

Llama3分词器用于德语模型 :@thomasrenkert询问扩展Llama3分词器 用于德语模型,@bjoernp确认分词器 与基础Llama3 相同。

文本生成集成问题 :@exllamafan2指出textgen 集成到LangChain 由于API更新而中断。

PDF文本分割 :@jokerssd询问最佳的PDF教科书文本分割器,用于将文本块与标题和章节相关联。

LlamaIndex的RAG管道优化 :@teemu2454建议对于检索增强生成(RAG) ,仅对答案进行分块即可,但为了简化,可以将所有内容一起摄取。

模型选择用于编码 :@gravitylens询问Python编码的最佳模型,@jedd1推荐Codestral ,并建议使用Hugging Face/r/LocalLLaMAExtractum.io获取最新信息和排行榜。

Oumuamua-7b-instruct-v2 :@rikineko介绍了Oumuamua-7b-instruct-v2 ,这是多个预训练语言模型的合并,优化用于角色扮演和多轮对话任务。详细信息和性能指标在Hugging Face

Imatrix Plus 2量化 :@drawless111讨论了Imatrix Plus 2 量化,通过最小化量化过程中的精度损失,显著降低困惑度并提高指令跟随能力。更多信息在Hugging Face

使用AutoGen无需OpenAI或LM Studio :一篇Analytics Vidhya博客文章解释了如何设置llama-cpp-python 作为OpenAI API的替代品,启用本地LLM与AutoGen集成。

HuggingFace & Github:

人工智能与技术创新

  • nvidia/Nemotron-4-340B-Base 模型托管在Hugging Face上,拥有 3400亿参数 ,专为生成合成数据以帮助开发其他大型语言模型(LLM)而设计。由 NVIDIA 开发,该模型通过在 9万亿标记 上进行广泛预训练,展示出极高的多功能性。它兼容 NVIDIA的NeMo框架 ,允许高级定制和微调。

  • nvidia/Nemotron-4-340B-Reward 是一个多维奖励模型,用于合成数据生成和构建LLMs。它支持最多 4,096个标记 的上下文长度,评估对话AI响应的 五个属性 :帮助性、正确性、连贯性、复杂性和冗余性。该模型在 RewardBench 上获得高分,并需要微调以适用于其他语言领域。

来源:https://news.miracleplus.com/share_link/30177

星环科技孙元浩:语料已经是大模型最大的挑战

在这篇洞察力十足的文章中,星环科技的CEO孙元浩讨论了培养大型AI模型的挑战和策略。他指出,提高模型准确性的最大障碍是语料库的质量,即用于训练的文本数据集。为了解决这个问题,星环科技正在开发先进的工具和方法来提高数据质量,比如构建外部知识库和提供语料库开发工具。公司不仅在理论上探索,还在积极实施解决方案,例如升级数据平台和引入分布式Python引擎。这篇文章为对AI未来和公司如何创新以培养更复杂模型的人提供了实际步骤的预览,以克服当前领域的限制。

来源:https://mp.weixin.qq.com/s/sYFQb2ay6usvDrn-vJfpbg

到底夜帕代怒择还Nvidia,还虏Nvidia沦捏了时代? - 知乎

这个问题似乎是关于Nvidia和3dfx之间历史竞争的讨论,重点是Nvidia在显卡市场上创新的影响。它强调了Nvidia的RIVA 128的重要性,以及随着首款GeForce的发布而引入"GPU"一词,它超越了3dfx延迟推出的Voodoo 4和5系列。该指南强调了Nvidia所做的技术进步,如板载变换和照明支持,以及向32位色彩渲染的转变。它还涉及了90年代末显卡市场的更广泛背景,以及行业最终的整合,Nvidia和ATI/AMD成为主要竞争对手。这个内容可能会吸引那些热衷于了解图形技术演变和塑造行业竞争动态的读者。

来源:https://www.zhihu.com/question/657934455/answer/3524396101

打造您的人工智能愿景:在Mistral服务器上利用Mistral进行精细调整的魔法。

在这篇富有洞察力的文章中,作者深入探讨了如何利用Mistral在Mistral服务器上对AI模型进行微调。这篇文章以其实用性而脱颖而出,引导读者了解为特定项目专门定制AI模型的过程。它强调了微调的实际好处,如提高开发速度、提高准确性以及增加AI应用的灵活性。这篇内容特别值得关注的地方在于它专注于代码的实施,提供了一种实用的视角,对于希望为创新用途个性化AI的开发人员来说可能非常宝贵,比如在聊天对话中制作更自然的回应。如果您有兴趣以符合您独特需求的方式利用AI,这篇文章可能是一份有价值的资源,提供了对微调过程的技术指导和战略洞察的结合。

来源:https://medium.com/ai-artistry/craft-your-ai-vision-fine-tuning-magic-with-mistral-on-mistral-server-6c9335232159

从祈也政撞三CUDA GEMM优圾

本文是关于CUDA GEMM(通用矩阵乘法)操作优化的技术文章,这是许多高性能计算任务的关键部分。作者强调理解CUDA和GPU架构对有效优化至关重要,并建议不熟悉的读者先阅读相关主题。指南提到使用图解和代码分析作为学习工具,对视觉学习者或CUDA编程新手特别有用。文章还深入讨论了GPU内部的多种内存空间,如寄存器和缓存,以及它们如何影响性能。对于想要优化GPU加速应用的开发者来说,这些信息非常有价值。总之,这篇内容对于那些想要深入了解CUDA GEMM优化和GPU内存架构的人来说,可能会非常有帮助。

来源:https://zhuanlan.zhihu.com/p/703256080?utm_psn=1784691296243331072

小互

Soft and Squishy Linework:专门生成柔和的、低保真(lofi)线条风格动漫图像模型

Soft and Squishy Linework:专门生成柔和的、低保真(lofi)线条风格动漫图像模型

来源:https://xiaohu.ai/p/9740

NVIDIA 发布 Nemotron-4 340B 开源模型 主要用于生成高质量的合成数据

NVIDIA 发布 Nemotron-4 340B 开源模型 主要用于生成高质量的合成数据

来源:https://xiaohu.ai/p/9732

让 AI 像人类一样通过试错法学习决策和推理 提高其逻辑推理和数学能力

让 AI 像人类一样通过试错法学习决策和推理 提高其逻辑推理和数学能力

来源:https://xiaohu.ai/p/9718

教程:借助伪代码让 ChatGPT 一次生成一套绘本图像

教程:借助伪代码让 ChatGPT 一次生成一套绘本图像

来源:https://xiaohu.ai/p/9702

根据单张图像和音频输入生成唱歌和说话视频,并能控制人物表情和姿态

根据单张图像和音频输入生成唱歌和说话视频,并能控制人物表情和姿态

来源:https://xiaohu.ai/p/9681

宝玉

Prompt 高级技巧:借助伪代码精准的控制 LLM 的输出结果和定义其执行逻辑

当你需要更精准的控制 LLM 的输出结果和定义其执行逻辑时,该怎么做?

来源:https://baoyu.io/blog/prompt-engineering/advanced-prompting-using-pseudocode-to-control-llm-output

小技巧:GPT 多了怎么管理?

使用 ChatGPT 的 @ 功能,可以快速找到你用过的 GPT,或者根据关键字检索到,然后再输入你要它完成的任务,和你单独打开 GPT 输入效果是一样的。

来源:https://baoyu.io/blog/gpt/tips-for-managing-multiple-gpts

AI 民科和 AI 科学家之间的差距

从一段翻译 Prompt 说起。

来源:https://baoyu.io/blog/ai/gap-between-ai-amateurs-and-ai-scientists

计算机专业还值得报考吗?

从我二十多年前参加高考以来,每年高考一结束,#计算机专业还值得报考吗# 就一直热门话题,一些人认为计算机发展了这么多年已经饱和,可能面临毕业即失业的风险,而另一些人则认为计算机专业依然是未来的热门专业,就业前景广阔。

来源:https://baoyu.io/blog/career/is-computer-science-still-worth-studying

探索检索和评估相关上下文的挑战 [译]

利用 Ragas, TruLens 和 DeepEval 对一年级阅读理解练习进行上下文相关性评估的案例研究

来源:https://baoyu.io/translations/rag/the-challenges-of-retrieving-and-evaluating-relevant-context-for-rag

Github

Codium-ai/cover-agent

CodiumAI Cover-Agent: An AI-Powered Tool for Automated Test Generation and Code Coverage Enhancement! 💻🤖🧪🐞

来源:https://github.com/Codium-ai/cover-agent

openrecall/openrecall

OpenRecall is a fully open-source, privacy-first alternative to proprietary solutions like Microsoft's Windows Recall. With OpenRecall, you can easily access your digital history, enhancing your memory and productivity without compromising your privacy.

来源:https://github.com/openrecall/openrecall

BuilderIO/micro-agent

An AI agent that writes (actually useful) code for you

来源:https://github.com/BuilderIO/micro-agent

squaredtechnologies/thread

An AI-powered Python notebook built in React --- generate and edit code cells, automatically fix errors, and chat with your code

来源:https://github.com/squaredtechnologies/thread

Bklieger/groqbook

Groqbook: Generate entire books in seconds using Groq and Llama3

来源:https://github.com/Bklieger/groqbook


本文档由扣子生成,资讯版权属于原作者。 豆包机器人链接:https://www.coze.cn/store/bot/7343089859382444051?bot_id=true 一支烟花社区提供技术支持,了解更多点击:https://sourl.cn/MsNyXj

相关推荐
边缘计算社区32 分钟前
首个!艾灵参编的工业边缘计算国家标准正式发布
大数据·人工智能·边缘计算
游客52043 分钟前
opencv中的各种滤波器简介
图像处理·人工智能·python·opencv·计算机视觉
一位小说男主43 分钟前
编码器与解码器:从‘乱码’到‘通话’
人工智能·深度学习
深圳南柯电子1 小时前
深圳南柯电子|电子设备EMC测试整改:常见问题与解决方案
人工智能
Kai HVZ1 小时前
《OpenCV计算机视觉》--介绍及基础操作
人工智能·opencv·计算机视觉
biter00881 小时前
opencv(15) OpenCV背景减除器(Background Subtractors)学习
人工智能·opencv·学习
吃个糖糖1 小时前
35 Opencv 亚像素角点检测
人工智能·opencv·计算机视觉
qq_529025291 小时前
Torch.gather
python·深度学习·机器学习