宝藏工具!逐行解释AI代码;2023上半年AI发展全盘回顾;LLM应用开发经验分享;如何评估一个大语言模型 | ShowMeAI日报

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!

Twitter 新 LOGO 是一个双线体大写字母 𝕏 (U+1D54F),是一个 Unicode 字符。在Word中输入「U+1D54F 」 然后按「Alt+x 」就可以打出来了~ ⋙ Unicode Character "𝕏" (U+1D54F)

🤖 宝藏工具!60+ 深度学习经典论文的算法实现 & 逐行解释

Annotated Deep Learning Paper Implementations 是一个开源 PyTorch 代码仓库,包含了60+深度学习论文的算法实现和详细注释

这个项目针对诸如 Transformers、GAN、强化学习等热门深度学习论文,提供了对应的Python代码实现。同时包含了详细的代码、公式、图表等的说明性注释,帮助深度学习研究者和工程师更好地理解论文内容 ⋙ > GitHub

🤖 微软必应聊天上线所有浏览器,谷歌再次后院着火

7月24日,微软的必应聊天已开始上线包括谷歌Chrome、苹果Safari在内的所有浏览器,部分用户已获得访问权限。此外,微软还为必应聊天推出了黑暗模式功能,用户可以通过右上角菜单进行切换。

与 Edge 浏览器相比,非微软浏览器上的必应聊天存在一些功能限制,如最多只能输入2000个字的提示、对话上下文保留轮数降低等。

业内分析认为,这是微软拓展用户量的重要举措。展望未来,在这一领域,微软与谷歌的竞争或将更加激烈 ⋙ the Verge

🤖 英特尔推出34个开源AI参考套件,降低部署门槛,加速AI落地

7月24日,英特尔公司向开发者社区发布了34个开源AI参考套件,包含模型代码、训练数据、机器学习流程说明、优化AI的库和oneAPI组件等,帮助开发者和数据科学家更便捷地部署人工智能。

这些基于oneAPI编程模型和英特尔端到端AI软件组合构建的参考套件,可以简化AI开发流程,提升现有智能解决方案,加速部署。这些预配置套件覆盖众多行业,包括消费品、能源、金融、医疗、制造、零售、电信等。

相比专有环境的局限,这些AI参考套件可以将解决方案时间从周缩短至天,帮助数据科学家和开发者以更低成本、更快速地训练模型。未来,英特尔将继续根据社区反馈更新维护部分套件 ⋙ bakersfield

🤖 2023上半年AI发展突飞猛进,要点与亮点全盘回顾

2023年上半年,人工智能领域进展神速,出现了一系列技术突破与重要进展。本文通过回顾半年来AI领域的重要成果,总结了这一时期人工智能发展的主要趋势与特点。

  1. 自然语言处理 (Natural Language Processing) :OpenAI 的 ChatGPT、Google 的 Bard 等对话机器人的出现,大大推动了自然语言处理技术的发展,新的语言模型不断涌现,语言能力显著提升

  2. 自动机器学习 (AutoML) :AutoML 进一步发展,可以自动完成数据预处理、超参数调优等任务,大大节省了数据科学家的时间,提高了工作效率

  3. 生成式AI (Generative AI) :基于用户提示,可以生成文本、图像等内容的生成式AI技术进一步成熟,被广泛应用于创作、辅助工作等领域

  4. 深度学习 (Deep Learning) :深度学习算法不断改进,在图像分类、目标检测等任务上的性能显著提升,已广泛应用于自动驾驶、医疗等行业

  5. 边缘计算 (Edge Computing) :为支持AI技术的计算需求,边缘计算技术进一步发展,使数据处理更实时高效,Google推出了新一代TPU加速芯片

  6. 道德合规 (Ethical AI and Data Science) :随着AI应用日益广泛,各国加快出台法规,关注算法歧视、隐私保护等道德风险,推动AI的健康发展 ⋙ KDnuggets

🤖 如何评估一个大语言模型?看微软这篇 LLM 能力评测综述

大型语言模型(Large language models, LLMs)因其在学术界和工业界展现出前所未有的性能而备受青睐。随着 LLMs 在研究和实际应用中被广泛使用,对其进行有效评估变得愈发重要。

微软亚洲研究院的 A Survey on Evaluation of Large Language Models 是大模型评测领域的第一篇综述文章,一共调研了219篇文献,以评估对象 (what to evaluate)评估领域 (where to evaluate)评估方法 (How to evaluate) 和目前的评估挑战等几大方面,对大模型的评估进行了详细的梳理和总结。

  1. 评测什么:自然语言处理、鲁棒性/伦理/偏见和真实性、医学应用、社会科学、自然科学与工程、代理应用、其他应用

  2. 在哪评测:总结了19个流行的基准测试,每个基准关注不同的方面和评估标准,为各自的领域做出了贡献

  3. 如何评测:介绍了自动评估和人工评估两种主要方法。这两种方法在评估语言模型和机器翻译等任务时起着重要的作用

  4. 综述总结:总结大语言模型的成功案例和可能的失败情况

  1. 重大挑战:提出了7项大语言模型评估面临的重大挑战
  • 设计 AGI 基准测试:什么是可靠、可信任、可计算的能正确衡量 AGI 任务的评估指标?

  • 设计 AGI 基准完成行为评估:除去标准任务之外,如何衡量 AGI 在其他任务,如机器人交互中的表现?

  • 稳健性评估:目前的大模型对输入的 prompt 非常不鲁棒,如何构建更好的鲁棒性评估准则?

  • 动态演化评估:大模型的能力在不断进化、也存在记忆训练数据的问题。如何设计更动态更进化式的评估方法?

  • 可信赖的评估:如何保证所设计的评估准则是可信任的?

  • 支持所有大模型任务的统一评估:大模型的评估并不是终点、如何将评估方案与大模型有关的下游任务进行融合?

  • 超越单纯的评估 :大模型的增强:评估出大模型的优缺点之后,如何开发新的算法来增强其在某方面的表现? ⋙ 论文 | GitHub | 中文解读 @微软亚洲研究院

🤖 ChatGPT 时代,程序设计课程该如何调整?看看老师们怎么说

Sam Lau 和 Philip Guo 来自加州大学圣地亚哥分校,他们一起撰写论文,探讨了 ChatGPT 等AI编程助手工具的出现如何影响编程课程的教学。他们采访9个国家、20多名编程入门课程的教师,并总结了教师们短期的应对计划以及长期的设想。

本文提供了一个非常宝贵的视角,让我们一窥编程教师们对这一快速发展现象的看法。相信我们可以从中得到许多启发。

短期计划:教师希望阻止学生作弊

担心学生依赖AI工具,不会深入学习编程基础

采取各种策略遏制作弊,但只是短期应对措施
较长期计划 (第一部分):抵制AI工具的想法

担心学生无法掌握编程基础,提出各种「防AI」的作业设计和考核方式

但是,大多数教师并非完全抵制AI工具
较长期计划 (第二部分):接纳AI工具的想法

认为AI编程是未来发展方向,需要让学生做好准备

看到使用AI工具的学习益处,如更注重程序设计

设想直接使用AI工具来辅助教学

培养学生代码阅读与评价的能力也很重要 ⋙ O'Reilly

🤖 拾象实践:为了理解 AI-Native,我们做了几款AI应用

拾象团队内部进行了一系列 LLM 应用开发的实践,既包括对话式内部知识库、音视频转录这类效率工具,也有复刻 GPT、LLM 输入法等偏实验性质尝试。这是技术负责人秦佳豪对 LLM 应用实践的阶段性总结回顾。

虽然大部分实践在这个时间点看起来已经「过时」甚至「徒劳」,但快速了解一个行业的最佳的方式就是参与其中,尤其是 LLM 这样的新浪潮。本篇 LLM 应用探索笔记则是一位一线开发者对 LLM 的思考。

💡 LLM 应用实践复盘

1 . 实践1-对话式内部知识库:利用 GPT-3 接口实现对话式搜索,部署成飞书机器人使用;虽然效果不错,但 davinci-002 理解能力仍不足,需要连接真实数据才能提升准确性

2 . 实践2-复刻instruct GPT:参考论文,使用 trlx 库对 GPT-2 中文进行 finetune,实现简易的instruct GPT;可以通过改变提示实现情感分析切换,但整体效果与ChatGPT相比仍有差距

3 . 实践3-让ChatGPT上网:通过浏览器与网络接口,实现 ChatGPT 查询互联网信息的功能。不同任务使用不同的数据和 API,扩展了 ChatGPT 的能力边界

4 . 实践4-端侧推理产品探索:尝试通过移动输入法、翻译耳机等端侧部署,实现本地推理;但受限于硬件和系统,效果一般

💡 LLM应用一:PickPod

1. 开发了音视频内容总结工具,支持准确转录及提取关键信息

2 . 后期转为利用 LLM 提取「非共识」,实现个性化的播客发现和推荐,根据用户反馈不断改进

💡 LLM应用二:盗梦笔记

1. 实现基于网页的AI驱动跑团游戏,多个 AI agent 分工协作推进游戏

2. 添加创作者模式,可以导入故事或通过提示自动生成游戏模块,还可以修改和优化

3 . 不同AI模型可以实现不同的游戏风格,Claude 表现突出,同时可以通过游戏采集交互数据

💡 总结

1 . 工程实现被模型能力提升淹没,但可以快速感受 LLM 应用发展

2 . 控制成本和实现可持续业务模式是关键,游戏等娱乐形式有天然优势

3 . 模型强弱取决于使用场景,端侧推理可提升安全性,基础服务可大幅提高应用效率

4 . 影响下一代用户和硬件发展,才是 LLM 应用的关键所在 ⋙ @海外独角兽
感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!

◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!

◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!

相关推荐
麦麦大数据7 分钟前
Python棉花病虫害图谱系统CNN识别+AI问答知识neo4j vue+flask深度学习神经网络可视化
人工智能·python·深度学习
段传涛9 分钟前
PAL(Program-Aided Language Model)
人工智能·语言模型·自然语言处理
声网11 分钟前
实时多模态 AI 的 N 种新可能丨实时互动和大模型专场@RTE2024回顾
人工智能·实时互动
魔珐科技12 分钟前
以3D数字人AI产品赋能教育培训人才发展,魔珐科技亮相AI+教育创新与人才发展大会
大数据·人工智能
weixin_4432906913 分钟前
【阅读记录-章节3】Build a Large Language Model (From Scratch)
人工智能·语言模型·自然语言处理
算家云18 分钟前
快速识别模型:simple_ocr,部署教程
开发语言·人工智能·python·ocr·数字识别·检测模型·英文符号识别
youcans_1 小时前
【微软:多模态基础模型】(5)多模态大模型:通过LLM训练
人工智能·计算机视觉·大模型·大语言模型·多模态
飞凌嵌入式1 小时前
飞凌嵌入式T113-i开发板RISC-V核的实时应用方案
人工智能·嵌入式硬件·嵌入式·risc-v·飞凌嵌入式
sinovoip1 小时前
Banana Pi BPI-CanMV-K230D-Zero 采用嘉楠科技 K230D RISC-V芯片设计
人工智能·科技·物联网·开源·risc-v