谈「套壳」色变？把壳做厚就是核心竞争力！全球最受欢迎AI应用榜单；LLM挑选指南；图解6种AI Agent；阿里AnyText生成带中文图片

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！

👀 CES 2024 在拉斯维加斯开幕，一场备受瞩目的年度全球科技盛会

www.ces.tech
补充一份背景：CES (International Consumer Electronics Show，国际消费类电子产品展览会)，是全球最大的消费电子展会之一；每年初的 CES 是科技行业里备受瞩目的一场盛会~

今年的 CES 开始啦！2024年1月9日至12日，美国拉斯维加斯将迎来全世界厂商、从业者和科技爱好者，交流技术和产品的未来规划和发展趋势。今年展会的热门主题包括人工智能、虚拟现实、数字健康、机器人、智慧城市、Web3等等 (👆 具体查看上方配图和官网)。

CES 2024 布展区域达到了 250 万平方英尺 (约 23.2 万平方米) ，预测会吸引 4000+ 参展商 ，1200+ 初创企业 ，1000+来自世界各地的媒体 ，多达13万与会者 (其中1/3与会者来自美国以外)。所以！本周我们将会看到大量相关报道，公司官方、媒体、用户、投资人、参观者等等各个视角的分享会塞满信息流。注意留心咱们的社群消息呀！！一起享受这场科技盛宴吧！！

www.theverge.com/23971966/ce...

👆 上方链接是美国科技媒体 the Verge 的专题页面，有实时跟进的各类报道，追踪关键信息还挺方便的~ 截至目前，比较出圈的信息有「苹果宣布将于2月份推出 Apple Vision Pro 」「大众汽车表示将在汽车中安装 ChatGPT 语音助手」。

🉑 两份榜单，一览全球最受欢迎的 GenAI 应用

writerbuddy.ai/blog/ai-ind...
补充一份背景：这张图制作者是在线写作平台 WriterBuddy.ai，基于 SEMrush 的数据抓取了 3000 多AI工具，按照访问量列出了 Top 50。此外，需要注意的是，研究时间期限为2022年9月至2023年8月，所以有几个月的滞后性 (对AI领域来说几个月已「沧海桑田」)

日报把访问量 Top 50 的AI工具整理了一下，并表明了所属分类，可以对照查看一下是否熟悉这些产品及国内的同类型应用。

访问 👆 上方链接可以查看更多分析视角，比如AI行业整体流量变化趋势 、流量增长和损失最多的AI应用 、AI用户最多的国家、平均使用时间最长 、忠诚度最高、各类型AI应用排行榜，以及总榜 Top 10 的详细分析等。

群里讨论最热烈的话题反而是左上角「Top 10 Countries With the Most AI Users」，美英日德加这些国家上榜不足为奇，印度作为IT大国排名第二也说得过去。但是印度尼西亚和菲律宾排名第三四位、墨西哥排名第九位，就耐人寻味了~

chat.openai.com 聊天机器人

character.ai 聊天机器人

quillbot.com 写作

midjourney.com 图片生成

huggingface.co 数据科学

bard.google.com 聊天机器人

novelai.net 写作

capcut.com 视频生成

janitorai.com 聊天机器人

civitai.com 图片生成

vocalremover.org 声音&音乐

you.com 聊天机器人

perplexity.ai 聊天机器人

cutout.pro 背景移除

craiyon.com 图片生成

hotpot.ai 设计

copy.ai 写作

leonardo.ai 图片生成

jasper.ai 写作

deepai.org 图片生成

elevenlabs.io 声音&音乐

tome.app 设计

stablediffusionweb.com 图片生成

writesonic.com 写作

playgroundai.com 图片生成

eightfold.ai 招聘

clipdrop.co 图片生成

voicemod.net 声音&音乐

runwayml.com 视频生成

otter.ai 声音&音乐

d-id.com 视频生成

photoroom.com 设计

lexica.art 图片生成

pixai.art 图片生成

zyro.com 设计

synthesia.io 视频生成

openart.ai 图片生成

zmo.ai 图片生成

remini.ai 图片编辑

dezgo.com 图片生成

kaiber.ai 图片&视频生成

vanceai.com 图片生成

gamma.app 设计

crushon.ai 聊天机器人

taskade.com 任务管理

opus.pro 视频生成

claude.ai 写作

personal.ai 聊天机器人

noty.ai 声音&音乐

chatdoc.com 写作

briansolis.com/2023/12/int...
补充一份背景：不同于上份榜单的「数据为王」，这份榜单则更加「私人」，是纽约大学生成式AI负责人 Conor Grennan 联合「设计工作室JESS 3」和「畅销书作家 Brian Solis」，耗时6个月制作并发布的

这张 GenAI Prism v1.0 图的信息非常丰富，从中心往外延展共有7层，体现了专家小组的评选理念和入选标准。其中占面积最大的区域部分将AI工具分为 Design、Flows、Conversational、Text、Video、Sound 这6个大类，并进一步细分成20个小类。

从12点钟沿顺时针方向旋转，工具的分类标准整理如下，其中经过综合评估影响力&潜力&成熟度后入选了100多个AI应用。

Design / 设计

Image / 图像

Layout / 布局

Brand / 品牌

Flows / 流程

Productivity / 生产力

Selfcare / 自我关怀

Learning / 学习

Conversational / 对话

General / 通用

Health Personal / 个人健康

Service / 服务

Text / 文本

Chat / 聊天

General/Prose / 通用/文章

Copy / 复制

Coding / 编码

Video / 视频

Creation / 创作

Animation / 动画

Enhancement / 增强

Editing / 编辑

Sound / 声音

Speech/Voice / 语音

Music / 音乐

Enhancement / 增强

👀 阿里「AnyText」多语言可视文本生成和编辑工具，AI生成图片可以包含指定文字

github.com/tyxsspa/Any...

目前 Midjourney V6 和 OpenAI DALL·E 3 都可以生成带有指定文字 (仅限英文 ) 的图片了，只需要输入 Prompt 时遵循特定语法。这些工具生成的中文文字图片，效果就差了很多，而且不太受控制~ 不过！阿里最近发布的「AnyText」完美地解决了这个问题！

AnyText 是一款多语言可视文本生成和编辑工具，不仅支持中文，还可以生成英语、日语、韩语等 ，并且能够对图片中的文字内容进行编辑。

huggingface.co/spaces/mode...

modelscope.cn/studios/dam...

👆 这是项目的 Hugging Face 和魔搭社区的在线体验地址，跟随页面引导和说明操作就可以啦！非常简单~ AnyText 应该是目前生成含中文图片的最强大工具，整体测试下来效果非常不错！简单的海报、配图、Logo 、涂鸦、表情包等等，都可以动动手指快速完成啦！

另外，测试显示 AnyText 生成电商场景的营销图片效果尤其出色！猜测训练过程中使用了阿里大量的电商图片~

🉑 阿里 · 通义千问 App 疯狂整活，上传个人照片即可生成热舞视频

阿里最近整的另一个活是「通义听悟可以生成特定人物的跳舞视频了 」！！操作步骤非常简单，只需要手机安装通义听悟App，在首页输入「全民舞王」，就可以进入主题页面啦 (👆 如左图1)！

选择舞蹈：目前系统提供了十几种舞蹈，包括最近大火的科目三、二次元的极乐劲舞、慢摇/鬼步舞/民族舞和广场舞等，总有一款你喜欢~

上传照片：按照要求上传正面站立的无遮挡全身照，或者选择系统默认形象，就可以啦~

生成视频：点击后等待系统生成就可以啦~ 虽然提示有15分钟左右的等待时间，但一般两三分钟就可以搞定

🉑 我们还要谈「套壳」色变嘛？把壳做厚也是核心竞争力！

从百度文心一言被怀疑「套壳」ChatGPT，到李开复零一模型被质疑「套壳」开源模型LLaMa，「套壳」这个话题像乌云一样萦绕在生成式人工智能和大语言模型的上方。尽管有从业者陆续出现解释和辟谣，但更多人依旧一头雾水或讳莫如深。

套壳 = 抄袭 = 完蛋了？

甲子光年结合国内外大模型技术论文和AI从业者&投资人的访谈，对这个话题进行了正面回应。这篇文章非常不错，兼顾了通俗性和专业性 ，非常清晰地解释了大模型「诞生」的整个过程，梳理了哪些步骤和环节存在套壳的空间。

大模型内核的起源

2017 年， Google Brain 发布 Transformer 神经网络架构，逐步取代 RNN 与 CNN 成为 NLP 前沿研究的标准范式

Transformer 原始架构衍生出三个变体架构，代表模型分别为：谷歌 BERT、OpenAI GPT 系列模型、谷歌 T5

2020 年，OpenAI 首次提出了 Scaling Laws (尺度定律)，NLP 研究正式进入大模型时代

GPT 架构的性能表现逐渐超越 BERT 与 T5，成为大模型的主流选择

→ 可以说今天所有的模型都是在「套壳」 Transformer 及其三个变体

大模型训练 = 预训练 + 微调

预训练 (Pre Train) 是大模型训练最核心的环节，通过把大量的文本信息压缩到模型中让模型具备世界知识；漫长的预训练后得到了基座模型 (Base Model)

预训练成本极高，只有具备充足的算力/财力的大公司，以及资本支持的雄心勃勃的创业公司，才会涉足基座模型

微调 (Fine-Tune) 通常分为 SFT (有监督微调) +RLHF (人类反馈强化学习) 两个步骤，其中 RLHF是 OpenAI 的创新设计，使得模型能够与人类意图与价值观对齐

在基座模型的基础上加入特定行业的数据集做进一步的微调，就会得到一个微调模型 (Fine-tuning Model) ，或者称为行业模型、垂直模型

预训练

第一派 | 从头自研预训练框架：百度和智谱AI (可能还有 Minimax、月之暗面等但无法核实)，这类公司数量很少

第二派 | 预训练框架基于开源的 Llama 2 并修改部分参数，然后进行完整的预训练过程，国内大多数大模型公司是这一派

需要注意的是：Llama 2 也是基于以往开源模型一步步发展而来的 ，以及模仿 Llama 2 并非代表没有核心竞争力

不论原创预训练框架还是模仿 Llama 2，两者都处在 GPT-3.5 的水平，性能差距不大 ；各家比拼的更多是工程化能力 (业内一般称为 AI Infra)

微调

数据的使用贯穿在大模型训练的每个阶段，但是预训练阶段「数据在多而不在精」，微调阶段「数据在精而不在多」

预训练阶段各家使用的互联网公开数据基本趋近，真正拉开差距的是微调阶段的数据质量

高效获取高质量数据集的方式，是直接利用 ChatGPT 或 GPT-4 等对话模型生成数据，同时确保数据多样性和完成了对齐，也是一种「套壳」行为；这一方式被称为「模仿学习 (Imitation Learning)」，借鉴了机器学习中的「知识蒸馏 (Knowledge Distillation) 」

注意！OpenAI 在服务条款中明确禁止使用 ChatGPT 生成的数据开发与 OpenAI 竞争的模型。但事实上，各类商业模型都在通过「偷」数据的方式来走微调的捷径，这已经是公开的秘密，并且不限国别

套壳五重进阶

这是大模型训练、推理和应用过程中，最常见的五种「套壳」方式

一阶：直接引用 OpenAI 接口

二阶：产品构建并积累自己的优质 Prompt

三阶：把特定数据集进行向量化，在部分场景构建自己的向量数据库，从而进行更精准的检索

四阶：使用优质问答数据进行二次训练，让模型更匹配对特定任务的理解

五阶：模仿 Llama2 架构进行预训练

结论

目前业内并没有明确统一的判断标准，脱离具体的场景谈论「套壳」是一种污名化的贴标签行为，当然大模型厂商也要慎用「自研」这个词以免产生误导

大模型真正关键的问题在于业务的成本结构和护城河，而不是套壳与否；把成本降低、把「壳」做厚，自然就产生了竞争力 ⋙ 强烈推荐阅读原文

🉑 大语言模型 (LLM) 挑选指南，AI开发者必备

blog.continue.dev/what-llm-to...
补充一份背景：项目最后更新于两个月前，之后发布的新模型没有被纳入清单；以及项目提供了一份 40+ 大模型详细信息的 CSV 文档

这篇文章很有意思！一看就出自行业老手，对常用大模型的性能和「使用手感」进行了介绍，帮助开发者快速决定如何选择，省掉了很多探索的时间。

开源大语言模型 (LLM)

适用场景：希望在本地环境中使用代码，拥有足够的内存资源，追求低成本，以及有能力全面管理和优化模型的开发者

Code Llama：由 Meta 训练，基于 Llama 2，提供 7B、13B 和 34B 三种不同规模的模型，是当前最知名的开源编程 LLM 基础模型

WizardCoder：由 WizardLM 团队开发，基于 Code Llama，采用 Evol-Instruct 方法进行微调，同样提供 7B、13B 和 34B 三种规模，是目前最受欢迎的开源指令调整大模型

Phind-CodeLlama：基于 Code Llama，由 Phind 进行微调，使用了约 80k 高质量编程问题和解决方案数据集，提供 34B 参数模型，但需要更多的内存资源

Mistral：由 Mistral AI 训练，拥有 7B 参数，于 2023 年 9 月发布，性能接近 CodeLlama 7B，同时在英语任务上表现良好

StarCoder：由 BigCode 训练，拥有 15B 参数，覆盖了 80+ 编程语言，虽然不是指令模型，但通过使用 Tech Assistant prompt 可以提升其表现

DeepSeek Coder：由 DeepSeek AI 训练，基于 2 万亿 token 的语料库，数据集包含 80+ 编程语言，在多种编程相关基准测试中表现优异

Llama 2：由 Meta 训练，拥有 2 万亿 token，是最受欢迎的开源大模型 (尽管在代码编辑方面略逊一筹) ，也是 Code Llama 的基础模型

商业大语言模型 (LLM)

适用场景：追求最佳模型性能，需要简单可靠的配置，内存资源有限，不介意代码离开本地环境，对成本不敏感的开发者

GPT-4：由 OpenAI 训练，是编程能力最强的大语言模型，通过 API 发送代码给 OpenAI，可能需要较高的成本

GPT-4 Turbo：比 GPT-4 更便宜且响应更快，知识截止日期为 2023 年 4 月，拥有 OpenAI API 账户或 GPT-4 访问权限的用户均可使用

GPT-3.5 Turbo：比 GPT-4 更便宜且响应更快，但提供的编程建议整体上不如 GPT-4，注册 OpenAI 账户后即可使用

Claude 2：由 Anthropic 训练，相比第一版在编程能力上有显著提升，需要通过 API 发送代码给 Anthropic；用户需要申请才能获得 Claude 2 的访问权限

PaLM 2：由 Google 训练，用户需在 MakerSuite 获取 API 密钥后，通过 PaLM API 将代码发送给 Google

👀 硬核极客拆解生成式AI：未来可期，但当下还不能解决复杂问题

www.bennee.com/~alex/blog/...

Alex 是一位有着丰富开发开发经验的「Systems Programmer」，他12月撰文分享了他的生成式人工智能体验，以及相关的思考。原文有着非常丰富且硬核的体验细节，日报整理和摘录关键内容，感兴趣的话可以访问 👆 上方链接阅读原文~

魔法数字与计算

在大语言模型中，「魔法数字」(或者说权重) 通过一系列矩阵来表示网络模型

这些模型的核心计算过程,是将一系列数字与另一系列数字相乘，然后将结果传递给网络的下一层；这个过程最终会输出下一个最可能的单词预测，然后根据扩展的上下文来预测下一个单词，形成一个循环

数字的价值

由于对生成这些「魔法数字」进行了大规模投资，这些数字本身变得非常有价值；模型背后的「魔法酱料」更多地关乎于训练方式和训练数据

如果输入数据的选择不当，可能会导致模型产生偏见；而对专有生成模型的批评之一，就是其训练方法的不透明性，因为这极大增加了评估模型安全性的难度

更小的魔法数字

开源社区正在努力构建自己的模型，例如 Meta公司免费提供的 LLaMA 2语言模型，导致了开源项目的激增

在 Hugging Face 平台上发布的开源 RedPajama数据集，项目旨在重现 LLaMA 的训练数据

让你的魔法数字发挥作用

使用大语言模型的方式，其中「提示(prompts)」是指导模型输出特定结果的方式，「上下文 (context)」提供了模型回答问题的参考信息，而「幻觉(hallucinations)」则描述了模型输出错误或矛盾信息的情况

代码审查：分享了使用LLMs进行代码审查的经验，指出这些模型能够发现逻辑问题和提出改进建议，但也需要适当的提示来引导模型指出实际问题

编写代码：LLMs如何从头开始编写代码方面，以及根据描述生成代码；尽管LLMs可以生成相当基础的解决方案，但通常需要手动优化，在处理复杂任务时可能需要人工干预

散文：LLMs在散文写作方面表现自然，可以快速生成文本，但缺乏独特性；建议在LLMs生成的文本基础上进行修改，以保持个人风格

🉑 6种 AI Agents 结构图与优缺点，探索智能机器的未来

www.simform.com/blog/types-...

这篇文章介绍了六种类型的人工智能智能体 (AI Agents) ，并且探讨了它们的能力和局限性，以及在不同领域的应用。有图示、有说明、有举例，讲解得特别清楚！

简单反射智能体 (Simple Reflex Agent)

简介：遵循预定义规则，仅对当前情况做出反应，不考虑过去或未来的影响

适用：规则稳定、行动简单的环境

优点：易于设计和实现，实时响应环境变化，可靠性高

缺点：对输入传感器的依赖，缺乏记忆或状态，无法处理部分可观察性或未编程的环境变化

基于模型的反射智能体 (Model-based Reflex Agent)

简介：基于当前感知和内部状态 (代表不可观察世界) 执行行动

适用：更新内部状态以反映世界如何独立于智能体演变，以及智能体行动如何影响世界

优点：基于对世界的了解做出快速决策，适应环境变化

缺点：构建和维护模型的计算成本高，模型可能无法完全捕捉真实环境的复杂性

基于目标的智能体 (Goal-based Agents)

简介：使用环境信息来实现特定目标，使用搜索算法找到最高效的路径

适用：机器人技术、计算机视觉和自然语言处理等领域

优点：简单易实现，高效达成特定目标

缺点：对特定目标的限制，无法适应变化的环境

基于效用的智能体 (Utility-based Agents)

简介：基于最大化效用函数或价值做出决策

适用：需要在多个选项中进行比较和选择的应用，如资源分配、调度和游戏

优点：处理广泛的决策问题，从经验中学习并调整决策策略

缺点：需要准确的环境模型，计算成本高，不考虑道德或伦理考虑

学习智能体 (Learning Agents)

简介：能够从过去的经验中学习并提高性能，包括学习元素、批评者、执行者和问题生成器

优点：能够将想法转化为基于AI决策的行动，随着时间的推移而进化

缺点：可能做出有偏见或错误的决策，高开发和维护成本

分层智能体 (Hierarchical Agents)

简介：在层次结构中组织，高层智能体监督低层智能体

适用：机器人技术、制造和运输等领域

优点：资源效率，通过清晰的权威和方向来增强沟通

缺点：在解决问题时的复杂性，固定层次结构限制了适应性

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们！

◉ 点击 👀日报&周刊合集，订阅话题 #ShowMeAI日报，一览AI领域发展前沿，抓住最新发展机会！

◉ 点击 🎡生产力工具与行业应用大全，一起在信息浪潮里扑腾起来吧！

谈「套壳」色变？把壳做厚就是核心竞争力！全球最受欢迎AI应用榜单；LLM挑选指南；图解6种AI Agent；阿里AnyText生成带中文图片 | ShowMeA