谈「套壳」色变?把壳做厚就是核心竞争力!全球最受欢迎AI应用榜单;LLM挑选指南;图解6种AI Agent;阿里AnyText生成带中文图片 | ShowMeA


👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!

👀 CES 2024 在拉斯维加斯开幕,一场备受瞩目的年度全球科技盛会

www.ces.tech
补充一份背景:CES (International Consumer Electronics Show,国际消费类电子产品展览会),是全球最大的消费电子展会之一;每年初的 CES 是科技行业里备受瞩目的一场盛会~

今年的 CES 开始啦!2024年1月9日至12日,美国拉斯维加斯将迎来全世界厂商、从业者和科技爱好者,交流技术和产品的未来规划和发展趋势。今年展会的热门主题包括人工智能、虚拟现实、数字健康、机器人、智慧城市、Web3等等 (👆 具体查看上方配图和官网)。

CES 2024 布展区域达到了 250 万平方英尺 (约 23.2 万平方米) ,预测会吸引 4000+ 参展商1200+ 初创企业1000+来自世界各地的媒体多达13万与会者 (其中1/3与会者来自美国以外)。所以!本周我们将会看到大量相关报道,公司官方、媒体、用户、投资人、参观者等等各个视角的分享会塞满信息流。注意留心咱们的社群消息呀!!一起享受这场科技盛宴吧!!

www.theverge.com/23971966/ce...

👆 上方链接是美国科技媒体 the Verge 的专题页面,有实时跟进的各类报道,追踪关键信息还挺方便的~ 截至目前,比较出圈的信息有「苹果宣布将于2月份推出 Apple Vision Pro 」「大众汽车表示将在汽车中安装 ChatGPT 语音助手」。

🉑 两份榜单,一览全球最受欢迎的 GenAI 应用

writerbuddy.ai/blog/ai-ind...
补充一份背景:这张图制作者是在线写作平台 WriterBuddy.ai,基于 SEMrush 的数据抓取了 3000 多AI工具,按照访问量列出了 Top 50。此外,需要注意的是,研究时间期限为2022年9月至2023年8月,所以有几个月的滞后性 (对AI领域来说几个月已「沧海桑田」)

日报把访问量 Top 50 的AI工具整理了一下,并表明了所属分类,可以对照查看一下是否熟悉这些产品及国内的同类型应用

访问 👆 上方链接可以查看更多分析视角,比如AI行业整体流量变化趋势流量增长和损失最多的AI应用 、AI用户最多的国家、平均使用时间最长 、忠诚度最高、各类型AI应用排行榜,以及总榜 Top 10 的详细分析等。

群里讨论最热烈的话题反而是左上角「Top 10 Countries With the Most AI Users」,美英日德加这些国家上榜不足为奇,印度作为IT大国排名第二也说得过去。但是印度尼西亚和菲律宾排名第三四位、墨西哥排名第九位,就耐人寻味了~

  1. chat.openai.com 聊天机器人

  2. character.ai 聊天机器人

  3. quillbot.com 写作

  4. midjourney.com 图片生成

  5. huggingface.co 数据科学

  6. bard.google.com 聊天机器人

  7. novelai.net 写作

  8. capcut.com 视频生成

  9. janitorai.com 聊天机器人

  10. civitai.com 图片生成

  11. vocalremover.org 声音&音乐

  12. you.com 聊天机器人

  13. perplexity.ai 聊天机器人

  14. cutout.pro 背景移除

  15. craiyon.com 图片生成

  16. hotpot.ai 设计

  17. copy.ai 写作

  18. leonardo.ai 图片生成

  19. jasper.ai 写作

  20. deepai.org 图片生成

  21. elevenlabs.io 声音&音乐

  22. tome.app 设计

  23. stablediffusionweb.com 图片生成

  24. writesonic.com 写作

  25. playgroundai.com 图片生成

  26. eightfold.ai 招聘

  27. clipdrop.co 图片生成

  28. voicemod.net 声音&音乐

  29. runwayml.com 视频生成

  30. otter.ai 声音&音乐

  31. d-id.com 视频生成

  32. photoroom.com 设计

  33. lexica.art 图片生成

  34. pixai.art 图片生成

  35. zyro.com 设计

  36. synthesia.io 视频生成

  37. openart.ai 图片生成

  38. zmo.ai 图片生成

  39. remini.ai 图片编辑

  40. dezgo.com 图片生成

  41. kaiber.ai 图片&视频生成

  42. vanceai.com 图片生成

  43. gamma.app 设计

  44. crushon.ai 聊天机器人

  45. taskade.com 任务管理

  46. opus.pro 视频生成

  47. claude.ai 写作

  48. personal.ai 聊天机器人

  49. noty.ai 声音&音乐

  50. chatdoc.com 写作

briansolis.com/2023/12/int...
补充一份背景:不同于上份榜单的「数据为王」,这份榜单则更加「私人」,是纽约大学生成式AI负责人 Conor Grennan 联合「设计工作室JESS 3」和「畅销书作家 Brian Solis」,耗时6个月制作并发布的

这张 GenAI Prism v1.0 图的信息非常丰富,从中心往外延展共有7层,体现了专家小组的评选理念和入选标准。其中占面积最大的区域部分将AI工具分为 Design、Flows、Conversational、Text、Video、Sound 这6个大类,并进一步细分成20个小类。

从12点钟沿顺时针方向旋转,工具的分类标准整理如下,其中经过综合评估影响力&潜力&成熟度后入选了100多个AI应用

Design / 设计

  • Image / 图像

  • Layout / 布局

  • Brand / 品牌

Flows / 流程

  • Productivity / 生产力

  • Selfcare / 自我关怀

  • Learning / 学习

Conversational / 对话

  • General / 通用

  • Health Personal / 个人健康

  • Service / 服务

Text / 文本

  • Chat / 聊天

  • General/Prose / 通用/文章

  • Copy / 复制

  • Coding / 编码

Video / 视频

  • Creation / 创作

  • Animation / 动画

  • Enhancement / 增强

  • Editing / 编辑

Sound / 声音

  • Speech/Voice / 语音

  • Music / 音乐

  • Enhancement / 增强

👀 阿里「AnyText」多语言可视文本生成和编辑工具,AI生成图片可以包含指定文字

github.com/tyxsspa/Any...

目前 Midjourney V6 和 OpenAI DALL·E 3 都可以生成带有指定文字 (仅限英文 ) 的图片了,只需要输入 Prompt 时遵循特定语法。这些工具生成的中文文字图片,效果就差了很多,而且不太受控制~ 不过!阿里最近发布的「AnyText」完美地解决了这个问题!

AnyText 是一款多语言可视文本生成和编辑工具,不仅支持中文,还可以生成英语、日语、韩语等 ,并且能够对图片中的文字内容进行编辑

👆 这是项目的 Hugging Face 和魔搭社区的在线体验地址,跟随页面引导和说明操作就可以啦!非常简单~ AnyText 应该是目前生成含中文图片的最强大工具,整体测试下来效果非常不错!简单的海报、配图、Logo 、涂鸦、表情包等等,都可以动动手指快速完成啦!

另外,测试显示 AnyText 生成电商场景的营销图片效果尤其出色!猜测训练过程中使用了阿里大量的电商图片~

🉑 阿里 · 通义千问 App 疯狂整活,上传个人照片即可生成热舞视频

阿里最近整的另一个活是「通义听悟可以生成特定人物的跳舞视频了 」!!操作步骤非常简单,只需要手机安装通义听悟App,在首页输入「全民舞王」,就可以进入主题页面啦 (👆 如左图1)!

  1. 选择舞蹈:目前系统提供了十几种舞蹈,包括最近大火的科目三、二次元的极乐劲舞、慢摇/鬼步舞/民族舞和广场舞等,总有一款你喜欢~

  2. 上传照片:按照要求上传正面站立的无遮挡全身照,或者选择系统默认形象,就可以啦~

  3. 生成视频:点击后等待系统生成就可以啦~ 虽然提示有15分钟左右的等待时间,但一般两三分钟就可以搞定

🉑 我们还要谈「套壳」色变嘛?把壳做厚也是核心竞争力!

从百度文心一言被怀疑「套壳」ChatGPT,到李开复零一模型被质疑「套壳」开源模型LLaMa,「套壳」这个话题像乌云一样萦绕在生成式人工智能和大语言模型的上方。尽管有从业者陆续出现解释和辟谣,但更多人依旧一头雾水或讳莫如深。

套壳 = 抄袭 = 完蛋了?

甲子光年结合国内外大模型技术论文和AI从业者&投资人的访谈,对这个话题进行了正面回应。这篇文章非常不错,兼顾了通俗性和专业性非常清晰地解释了大模型「诞生」的整个过程,梳理了哪些步骤和环节存在套壳的空间

大模型内核的起源

  • 2017 年, Google Brain 发布 Transformer 神经网络架构,逐步取代 RNN 与 CNN 成为 NLP 前沿研究的标准范式

  • Transformer 原始架构衍生出三个变体架构,代表模型分别为:谷歌 BERT、OpenAI GPT 系列模型、谷歌 T5

  • 2020 年,OpenAI 首次提出了 Scaling Laws (尺度定律),NLP 研究正式进入大模型时代

  • GPT 架构的性能表现逐渐超越 BERT 与 T5,成为大模型的主流选择

  • 可以说今天所有的模型都是在「套壳」 Transformer 及其三个变体

大模型训练 = 预训练 + 微调

  • 预训练 (Pre Train) 是大模型训练最核心的环节,通过把大量的文本信息压缩到模型中让模型具备世界知识;漫长的预训练后得到了基座模型 (Base Model)

  • 预训练成本极高,只有具备充足的算力/财力的大公司,以及资本支持的雄心勃勃的创业公司,才会涉足基座模型

  • 微调 (Fine-Tune) 通常分为 SFT (有监督微调) +RLHF (人类反馈强化学习) 两个步骤,其中 RLHF是 OpenAI 的创新设计,使得模型能够与人类意图与价值观对齐

  • 在基座模型的基础上加入特定行业的数据集做进一步的微调,就会得到一个微调模型 (Fine-tuning Model) ,或者称为行业模型、垂直模型

预训练

  • 第一派 | 从头自研预训练框架:百度和智谱AI (可能还有 Minimax、月之暗面 等但无法核实),这类公司数量很少

  • 第二派 | 预训练框架基于开源的 Llama 2 并修改部分参数,然后进行完整的预训练过程,国内大多数大模型公司是这一派

  • 需要注意的是:Llama 2 也是基于以往开源模型一步步发展而来的 ,以及模仿 Llama 2 并非代表没有核心竞争力

  • 不论原创预训练框架还是模仿 Llama 2,两者都处在 GPT-3.5 的水平,性能差距不大各家比拼的更多是工程化能力 (业内一般称为 AI Infra)

微调

  • 数据的使用贯穿在大模型训练的每个阶段,但是预训练阶段「数据在多而不在精」,微调阶段「数据在精而不在多」

  • 预训练阶段各家使用的互联网公开数据基本趋近,真正拉开差距的是微调阶段的数据质量

  • 高效获取高质量数据集的方式,是直接利用 ChatGPT 或 GPT-4 等对话模型生成数据,同时确保数据多样性和完成了对齐,也是一种「套壳」行为;这一方式被称为「模仿学习 (Imitation Learning)」,借鉴了机器学习中的「知识蒸馏 (Knowledge Distillation) 」

  • 注意!OpenAI 在服务条款中明确禁止使用 ChatGPT 生成的数据开发与 OpenAI 竞争的模型。但事实上,各类商业模型都在通过「偷」数据的方式来走微调的捷径,这已经是公开的秘密,并且不限国别

套壳五重进阶

  • 这是大模型训练、推理和应用过程中,最常见的五种「套壳」方式

  • 一阶:直接引用 OpenAI 接口

  • 二阶:产品构建并积累自己的优质 Prompt

  • 三阶:把特定数据集进行向量化,在部分场景构建自己的向量数据库,从而进行更精准的检索

  • 四阶:使用优质问答数据进行二次训练,让模型更匹配对特定任务的理解

  • 五阶:模仿 Llama2 架构进行预训练

结论

  • 目前业内并没有明确统一的判断标准,脱离具体的场景谈论「套壳」是一种污名化的贴标签行为,当然大模型厂商也要慎用「自研」这个词以免产生误导

  • 大模型真正关键的问题在于业务的成本结构和护城河,而不是套壳与否;把成本降低、把「壳」做厚,自然就产生了竞争力 ⋙ 强烈推荐阅读原文

🉑 大语言模型 (LLM) 挑选指南,AI开发者必备

blog.continue.dev/what-llm-to...
补充一份背景:项目最后更新于两个月前,之后发布的新模型没有被纳入清单;以及项目提供了一份 40+ 大模型详细信息的 CSV 文档

这篇文章很有意思!一看就出自行业老手,对常用大模型的性能和「使用手感」进行了介绍,帮助开发者快速决定如何选择,省掉了很多探索的时间。

开源大语言模型 (LLM)

  • 适用场景:希望在本地环境中使用代码,拥有足够的内存资源,追求低成本,以及有能力全面管理和优化模型的开发者

  • Code Llama:由 Meta 训练,基于 Llama 2,提供 7B、13B 和 34B 三种不同规模的模型,是当前最知名的开源编程 LLM 基础模型

  • WizardCoder:由 WizardLM 团队开发,基于 Code Llama,采用 Evol-Instruct 方法进行微调,同样提供 7B、13B 和 34B 三种规模,是目前最受欢迎的开源指令调整大模型

  • Phind-CodeLlama:基于 Code Llama,由 Phind 进行微调,使用了约 80k 高质量编程问题和解决方案数据集,提供 34B 参数模型,但需要更多的内存资源

  • Mistral:由 Mistral AI 训练,拥有 7B 参数,于 2023 年 9 月发布,性能接近 CodeLlama 7B,同时在英语任务上表现良好

  • StarCoder:由 BigCode 训练,拥有 15B 参数,覆盖了 80+ 编程语言,虽然不是指令模型,但通过使用 Tech Assistant prompt 可以提升其表现

  • DeepSeek Coder:由 DeepSeek AI 训练,基于 2 万亿 token 的语料库,数据集包含 80+ 编程语言,在多种编程相关基准测试中表现优异

  • Llama 2:由 Meta 训练,拥有 2 万亿 token,是最受欢迎的开源大模型 (尽管在代码编辑方面略逊一筹) ,也是 Code Llama 的基础模型

商业大语言模型 (LLM)

  • 适用场景:追求最佳模型性能,需要简单可靠的配置,内存资源有限,不介意代码离开本地环境,对成本不敏感的开发者

  • GPT-4:由 OpenAI 训练,是编程能力最强的大语言模型,通过 API 发送代码给 OpenAI,可能需要较高的成本

  • GPT-4 Turbo:比 GPT-4 更便宜且响应更快,知识截止日期为 2023 年 4 月,拥有 OpenAI API 账户或 GPT-4 访问权限的用户均可使用

  • GPT-3.5 Turbo:比 GPT-4 更便宜且响应更快,但提供的编程建议整体上不如 GPT-4,注册 OpenAI 账户后即可使用

  • Claude 2:由 Anthropic 训练,相比第一版在编程能力上有显著提升,需要通过 API 发送代码给 Anthropic;用户需要申请才能获得 Claude 2 的访问权限

  • PaLM 2:由 Google 训练,用户需在 MakerSuite 获取 API 密钥后,通过 PaLM API 将代码发送给 Google

👀 硬核极客拆解生成式AI:未来可期,但当下还不能解决复杂问题

www.bennee.com/~alex/blog/...

Alex 是一位有着丰富开发开发经验的「Systems Programmer」,他12月撰文分享了他的生成式人工智能体验,以及相关的思考。原文有着非常丰富且硬核的体验细节,日报整理和摘录关键内容,感兴趣的话可以访问 👆 上方链接阅读原文~

  1. 魔法数字与计算
  • 在大语言模型中,「魔法数字」(或者说权重) 通过一系列矩阵来表示网络模型

  • 这些模型的核心计算过程,是将一系列数字与另一系列数字相乘,然后将结果传递给网络的下一层;这个过程最终会输出下一个最可能的单词预测,然后根据扩展的上下文来预测下一个单词,形成一个循环

  1. 数字的价值
  • 由于对生成这些「魔法数字」进行了大规模投资,这些数字本身变得非常有价值;模型背后的「魔法酱料」更多地关乎于训练方式和训练数据

  • 如果输入数据的选择不当,可能会导致模型产生偏见;而对专有生成模型的批评之一,就是其训练方法的不透明性,因为这极大增加了评估模型安全性的难度

  1. 更小的魔法数字
  • 开源社区正在努力构建自己的模型,例如 Meta公司免费提供的 LLaMA 2语言模型,导致了开源项目的激增

  • 在 Hugging Face 平台上发布的开源 RedPajama数据集,项目旨在重现 LLaMA 的训练数据

  1. 让你的魔法数字发挥作用
  • 使用大语言模型的方式,其中「提示(prompts)」是指导模型输出特定结果的方式,「上下文 (context)」提供了模型回答问题的参考信息,而「幻觉(hallucinations)」则描述了模型输出错误或矛盾信息的情况

  • 代码审查:分享了使用LLMs进行代码审查的经验,指出这些模型能够发现逻辑问题和提出改进建议,但也需要适当的提示来引导模型指出实际问题

  • 编写代码:LLMs如何从头开始编写代码方面,以及根据描述生成代码;尽管LLMs可以生成相当基础的解决方案,但通常需要手动优化,在处理复杂任务时可能需要人工干预

  • 散文:LLMs在散文写作方面表现自然,可以快速生成文本,但缺乏独特性;建议在LLMs生成的文本基础上进行修改,以保持个人风格

🉑 6种 AI Agents 结构图与优缺点,探索智能机器的未来

www.simform.com/blog/types-...

这篇文章介绍了六种类型的人工智能智能体 (AI Agents) ,并且探讨了它们的能力和局限性,以及在不同领域的应用。有图示、有说明、有举例,讲解得特别清楚!

简单反射智能体 (Simple Reflex Agent)

  • 简介:遵循预定义规则,仅对当前情况做出反应,不考虑过去或未来的影响

  • 适用:规则稳定、行动简单的环境

  • 优点:易于设计和实现,实时响应环境变化,可靠性高

  • 缺点:对输入传感器的依赖,缺乏记忆或状态,无法处理部分可观察性或未编程的环境变化

基于模型的反射智能体 (Model-based Reflex Agent)

  • 简介:基于当前感知和内部状态 (代表不可观察世界) 执行行动

  • 适用:更新内部状态以反映世界如何独立于智能体演变,以及智能体行动如何影响世界

  • 优点:基于对世界的了解做出快速决策,适应环境变化

  • 缺点:构建和维护模型的计算成本高,模型可能无法完全捕捉真实环境的复杂性

基于目标的智能体 (Goal-based Agents)

  • 简介:使用环境信息来实现特定目标,使用搜索算法找到最高效的路径

  • 适用:机器人技术、计算机视觉和自然语言处理等领域

  • 优点:简单易实现,高效达成特定目标

  • 缺点:对特定目标的限制,无法适应变化的环境

基于效用的智能体 (Utility-based Agents)

  • 简介:基于最大化效用函数或价值做出决策

  • 适用:需要在多个选项中进行比较和选择的应用,如资源分配、调度和游戏

  • 优点:处理广泛的决策问题,从经验中学习并调整决策策略

  • 缺点:需要准确的环境模型,计算成本高,不考虑道德或伦理考虑

学习智能体 (Learning Agents)

  • 简介:能够从过去的经验中学习并提高性能,包括学习元素、批评者、执行者和问题生成器

  • 优点:能够将想法转化为基于AI决策的行动,随着时间的推移而进化

  • 缺点:可能做出有偏见或错误的决策,高开发和维护成本

分层智能体 (Hierarchical Agents)

  • 简介:在层次结构中组织,高层智能体监督低层智能体

  • 适用:机器人技术、制造和运输等领域

  • 优点:资源效率,通过清晰的权威和方向来增强沟通

  • 缺点:在解决问题时的复杂性,固定层次结构限制了适应性

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!

◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!

◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!

相关推荐
YSGZJJ29 分钟前
股指期货的套保策略如何精准选择和规避风险?
人工智能·区块链
无脑敲代码,bug漫天飞31 分钟前
COR 损失函数
人工智能·机器学习
HPC_fac130520678161 小时前
以科学计算为切入点:剖析英伟达服务器过热难题
服务器·人工智能·深度学习·机器学习·计算机视觉·数据挖掘·gpu算力
小陈phd4 小时前
OpenCV从入门到精通实战(九)——基于dlib的疲劳监测 ear计算
人工智能·opencv·计算机视觉
Guofu_Liao5 小时前
大语言模型---LoRA简介;LoRA的优势;LoRA训练步骤;总结
人工智能·语言模型·自然语言处理·矩阵·llama
gz7seven7 小时前
BLIP-2模型的详解与思考
大模型·llm·多模态·blip·多模态大模型·blip-2·q-former
ZHOU_WUYI9 小时前
3.langchain中的prompt模板 (few shot examples in chat models)
人工智能·langchain·prompt
如若1239 小时前
主要用于图像的颜色提取、替换以及区域修改
人工智能·opencv·计算机视觉
老艾的AI世界9 小时前
AI翻唱神器,一键用你喜欢的歌手翻唱他人的曲目(附下载链接)
人工智能·深度学习·神经网络·机器学习·ai·ai翻唱·ai唱歌·ai歌曲
DK221519 小时前
机器学习系列----关联分析
人工智能·机器学习