宝藏工具！逐行解释AI代码；2023上半年AI发展全盘回顾；LLM应用开发经验分享；如何评估一个大语言模型

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！

🤖 如何拼出 Twitter 新 LOGO 的字母 𝕏

Twitter 新 LOGO 是一个双线体大写字母 𝕏 (U+1D54F)，是一个 Unicode 字符。在Word中输入「U+1D54F 」然后按「Alt+x 」就可以打出来了~ ⋙ Unicode Character "𝕏" (U+1D54F)

🤖 宝藏工具！60+ 深度学习经典论文的算法实现 & 逐行解释

Annotated Deep Learning Paper Implementations 是一个开源 PyTorch 代码仓库，包含了60+深度学习论文的算法实现和详细注释。

这个项目针对诸如 Transformers、GAN、强化学习等热门深度学习论文，提供了对应的Python代码实现。同时包含了详细的代码、公式、图表等的说明性注释，帮助深度学习研究者和工程师更好地理解论文内容 ⋙ > GitHub

🤖 微软必应聊天上线所有浏览器，谷歌再次后院着火

7月24日，微软的必应聊天已开始上线包括谷歌Chrome、苹果Safari在内的所有浏览器，部分用户已获得访问权限。此外，微软还为必应聊天推出了黑暗模式功能，用户可以通过右上角菜单进行切换。

与 Edge 浏览器相比，非微软浏览器上的必应聊天存在一些功能限制，如最多只能输入2000个字的提示、对话上下文保留轮数降低等。

业内分析认为，这是微软拓展用户量的重要举措。展望未来，在这一领域，微软与谷歌的竞争或将更加激烈 ⋙ the Verge

🤖 英特尔推出34个开源AI参考套件，降低部署门槛，加速AI落地

7月24日，英特尔公司向开发者社区发布了34个开源AI参考套件，包含模型代码、训练数据、机器学习流程说明、优化AI的库和oneAPI组件等，帮助开发者和数据科学家更便捷地部署人工智能。

这些基于oneAPI编程模型和英特尔端到端AI软件组合构建的参考套件，可以简化AI开发流程，提升现有智能解决方案，加速部署。这些预配置套件覆盖众多行业，包括消费品、能源、金融、医疗、制造、零售、电信等。

相比专有环境的局限，这些AI参考套件可以将解决方案时间从周缩短至天，帮助数据科学家和开发者以更低成本、更快速地训练模型。未来，英特尔将继续根据社区反馈更新维护部分套件 ⋙ bakersfield

🤖 2023上半年AI发展突飞猛进，要点与亮点全盘回顾

2023年上半年，人工智能领域进展神速，出现了一系列技术突破与重要进展。本文通过回顾半年来AI领域的重要成果，总结了这一时期人工智能发展的主要趋势与特点。

自然语言处理 (Natural Language Processing) ：OpenAI 的 ChatGPT、Google 的 Bard 等对话机器人的出现，大大推动了自然语言处理技术的发展，新的语言模型不断涌现，语言能力显著提升

自动机器学习 (AutoML) ：AutoML 进一步发展，可以自动完成数据预处理、超参数调优等任务，大大节省了数据科学家的时间，提高了工作效率

生成式AI (Generative AI) ：基于用户提示，可以生成文本、图像等内容的生成式AI技术进一步成熟，被广泛应用于创作、辅助工作等领域

深度学习 (Deep Learning) ：深度学习算法不断改进，在图像分类、目标检测等任务上的性能显著提升，已广泛应用于自动驾驶、医疗等行业

边缘计算 (Edge Computing) ：为支持AI技术的计算需求，边缘计算技术进一步发展，使数据处理更实时高效，Google推出了新一代TPU加速芯片

道德合规 (Ethical AI and Data Science) ：随着AI应用日益广泛，各国加快出台法规，关注算法歧视、隐私保护等道德风险，推动AI的健康发展 ⋙ KDnuggets

🤖 如何评估一个大语言模型？看微软这篇 LLM 能力评测综述

大型语言模型（Large language models, LLMs）因其在学术界和工业界展现出前所未有的性能而备受青睐。随着 LLMs 在研究和实际应用中被广泛使用，对其进行有效评估变得愈发重要。

微软亚洲研究院的 A Survey on Evaluation of Large Language Models 是大模型评测领域的第一篇综述文章，一共调研了219篇文献，以评估对象 (what to evaluate) 、评估领域 (where to evaluate) 、评估方法 (How to evaluate) 和目前的评估挑战等几大方面，对大模型的评估进行了详细的梳理和总结。

评测什么：自然语言处理、鲁棒性/伦理/偏见和真实性、医学应用、社会科学、自然科学与工程、代理应用、其他应用

在哪评测：总结了19个流行的基准测试，每个基准关注不同的方面和评估标准，为各自的领域做出了贡献

如何评测：介绍了自动评估和人工评估两种主要方法。这两种方法在评估语言模型和机器翻译等任务时起着重要的作用

综述总结：总结大语言模型的成功案例和可能的失败情况

重大挑战：提出了7项大语言模型评估面临的重大挑战

设计 AGI 基准测试：什么是可靠、可信任、可计算的能正确衡量 AGI 任务的评估指标？

设计 AGI 基准完成行为评估：除去标准任务之外，如何衡量 AGI 在其他任务，如机器人交互中的表现？

稳健性评估：目前的大模型对输入的 prompt 非常不鲁棒，如何构建更好的鲁棒性评估准则？

动态演化评估：大模型的能力在不断进化、也存在记忆训练数据的问题。如何设计更动态更进化式的评估方法？

可信赖的评估：如何保证所设计的评估准则是可信任的？

支持所有大模型任务的统一评估：大模型的评估并不是终点、如何将评估方案与大模型有关的下游任务进行融合？

超越单纯的评估 ：大模型的增强：评估出大模型的优缺点之后，如何开发新的算法来增强其在某方面的表现？ ⋙ 论文 | GitHub | 中文解读 @微软亚洲研究院

🤖 ChatGPT 时代，程序设计课程该如何调整？看看老师们怎么说

Sam Lau 和 Philip Guo 来自加州大学圣地亚哥分校，他们一起撰写论文，探讨了 ChatGPT 等AI编程助手工具的出现如何影响编程课程的教学。他们采访9个国家、20多名编程入门课程的教师，并总结了教师们短期的应对计划以及长期的设想。

本文提供了一个非常宝贵的视角，让我们一窥编程教师们对这一快速发展现象的看法。相信我们可以从中得到许多启发。

短期计划：教师希望阻止学生作弊

▢ 担心学生依赖AI工具，不会深入学习编程基础

▢ 采取各种策略遏制作弊，但只是短期应对措施
较长期计划 (第一部分)：抵制AI工具的想法

▢ 担心学生无法掌握编程基础，提出各种「防AI」的作业设计和考核方式

▢ 但是，大多数教师并非完全抵制AI工具
较长期计划 (第二部分)：接纳AI工具的想法

▢ 认为AI编程是未来发展方向，需要让学生做好准备

▢ 看到使用AI工具的学习益处，如更注重程序设计

▢ 设想直接使用AI工具来辅助教学

▢ 培养学生代码阅读与评价的能力也很重要 ⋙ O'Reilly

🤖 拾象实践：为了理解 AI-Native，我们做了几款AI应用

拾象团队内部进行了一系列 LLM 应用开发的实践，既包括对话式内部知识库、音视频转录这类效率工具，也有复刻 GPT、LLM 输入法等偏实验性质尝试。这是技术负责人秦佳豪对 LLM 应用实践的阶段性总结回顾。

虽然大部分实践在这个时间点看起来已经「过时」甚至「徒劳」，但快速了解一个行业的最佳的方式就是参与其中，尤其是 LLM 这样的新浪潮。本篇 LLM 应用探索笔记则是一位一线开发者对 LLM 的思考。

💡 LLM 应用实践复盘

1 . 实践1-对话式内部知识库：利用 GPT-3 接口实现对话式搜索，部署成飞书机器人使用；虽然效果不错，但 davinci-002 理解能力仍不足，需要连接真实数据才能提升准确性

2 . 实践2-复刻instruct GPT：参考论文，使用 trlx 库对 GPT-2 中文进行 finetune，实现简易的instruct GPT；可以通过改变提示实现情感分析切换，但整体效果与ChatGPT相比仍有差距

3 . 实践3-让ChatGPT上网：通过浏览器与网络接口，实现 ChatGPT 查询互联网信息的功能。不同任务使用不同的数据和 API，扩展了 ChatGPT 的能力边界

4 . 实践4-端侧推理产品探索：尝试通过移动输入法、翻译耳机等端侧部署，实现本地推理；但受限于硬件和系统，效果一般

💡 LLM应用一：PickPod

1. 开发了音视频内容总结工具，支持准确转录及提取关键信息

2 . 后期转为利用 LLM 提取「非共识」，实现个性化的播客发现和推荐，根据用户反馈不断改进

💡 LLM应用二：盗梦笔记

1. 实现基于网页的AI驱动跑团游戏，多个 AI agent 分工协作推进游戏

2. 添加创作者模式，可以导入故事或通过提示自动生成游戏模块，还可以修改和优化

3 . 不同AI模型可以实现不同的游戏风格，Claude 表现突出，同时可以通过游戏采集交互数据

💡 总结

1 . 工程实现被模型能力提升淹没，但可以快速感受 LLM 应用发展

2 . 控制成本和实现可持续业务模式是关键，游戏等娱乐形式有天然优势

3 . 模型强弱取决于使用场景，端侧推理可提升安全性，基础服务可大幅提高应用效率

4 . 影响下一代用户和硬件发展，才是 LLM 应用的关键所在 ⋙ @海外独角兽
感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们！

◉ 点击 👀日报&周刊合集，订阅话题 #ShowMeAI日报，一览AI领域发展前沿，抓住最新发展机会！

◉ 点击 🎡生产力工具与行业应用大全，一起在信息浪潮里扑腾起来吧！

宝藏工具！逐行解释AI代码；2023上半年AI发展全盘回顾；LLM应用开发经验分享；如何评估一个大语言模型 | ShowMeAI日报