👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦!
👀 CES 2024 在拉斯维加斯开幕,一场备受瞩目的年度全球科技盛会
www.ces.tech
补充一份背景:CES (International Consumer Electronics Show,国际消费类电子产品展览会),是全球最大的消费电子展会之一;每年初的 CES 是科技行业里备受瞩目的一场盛会~
今年的 CES 开始啦!2024年1月9日至12日,美国拉斯维加斯将迎来全世界厂商、从业者和科技爱好者,交流技术和产品的未来规划和发展趋势。今年展会的热门主题包括人工智能、虚拟现实、数字健康、机器人、智慧城市、Web3等等 (👆 具体查看上方配图和官网)。
CES 2024 布展区域达到了 250 万平方英尺 (约 23.2 万平方米) ,预测会吸引 4000+ 参展商 ,1200+ 初创企业 ,1000+来自世界各地的媒体 ,多达13万与会者 (其中1/3与会者来自美国以外)。所以!本周我们将会看到大量相关报道,公司官方、媒体、用户、投资人、参观者等等各个视角的分享会塞满信息流。注意留心咱们的社群消息呀!!一起享受这场科技盛宴吧!!
www.theverge.com/23971966/ce...
👆 上方链接是美国科技媒体 the Verge 的专题页面,有实时跟进的各类报道,追踪关键信息还挺方便的~ 截至目前,比较出圈的信息有「苹果宣布将于2月份推出 Apple Vision Pro 」「大众汽车表示将在汽车中安装 ChatGPT 语音助手」。
🉑 两份榜单,一览全球最受欢迎的 GenAI 应用
writerbuddy.ai/blog/ai-ind...
补充一份背景:这张图制作者是在线写作平台 WriterBuddy.ai,基于 SEMrush 的数据抓取了 3000 多AI工具,按照访问量列出了 Top 50。此外,需要注意的是,研究时间期限为2022年9月至2023年8月,所以有几个月的滞后性 (对AI领域来说几个月已「沧海桑田」)
日报把访问量 Top 50 的AI工具整理了一下,并表明了所属分类,可以对照查看一下是否熟悉这些产品及国内的同类型应用。
访问 👆 上方链接可以查看更多分析视角,比如AI行业整体流量变化趋势 、流量增长和损失最多的AI应用 、AI用户最多的国家、平均使用时间最长 、忠诚度最高、各类型AI应用排行榜,以及总榜 Top 10 的详细分析等。
群里讨论最热烈的话题反而是左上角「Top 10 Countries With the Most AI Users」,美英日德加这些国家上榜不足为奇,印度作为IT大国排名第二也说得过去。但是印度尼西亚和菲律宾排名第三四位、墨西哥排名第九位,就耐人寻味了~
chat.openai.com 聊天机器人
character.ai 聊天机器人
quillbot.com 写作
midjourney.com 图片生成
huggingface.co 数据科学
bard.google.com 聊天机器人
novelai.net 写作
capcut.com 视频生成
janitorai.com 聊天机器人
civitai.com 图片生成
vocalremover.org 声音&音乐
you.com 聊天机器人
perplexity.ai 聊天机器人
cutout.pro 背景移除
craiyon.com 图片生成
hotpot.ai 设计
copy.ai 写作
leonardo.ai 图片生成
jasper.ai 写作
deepai.org 图片生成
elevenlabs.io 声音&音乐
tome.app 设计
playgroundai.com 图片生成
eightfold.ai 招聘
clipdrop.co 图片生成
voicemod.net 声音&音乐
runwayml.com 视频生成
otter.ai 声音&音乐
d-id.com 视频生成
lexica.art 图片生成
pixai.art 图片生成
zyro.com 设计
synthesia.io 视频生成
openart.ai 图片生成
zmo.ai 图片生成
remini.ai 图片编辑
dezgo.com 图片生成
kaiber.ai 图片&视频生成
vanceai.com 图片生成
gamma.app 设计
crushon.ai 聊天机器人
taskade.com 任务管理
opus.pro 视频生成
claude.ai 写作
personal.ai 聊天机器人
noty.ai 声音&音乐
chatdoc.com 写作
briansolis.com/2023/12/int...
补充一份背景:不同于上份榜单的「数据为王」,这份榜单则更加「私人」,是纽约大学生成式AI负责人 Conor Grennan 联合「设计工作室JESS 3」和「畅销书作家 Brian Solis」,耗时6个月制作并发布的
这张 GenAI Prism v1.0 图的信息非常丰富,从中心往外延展共有7层,体现了专家小组的评选理念和入选标准。其中占面积最大的区域部分将AI工具分为 Design、Flows、Conversational、Text、Video、Sound 这6个大类,并进一步细分成20个小类。
从12点钟沿顺时针方向旋转,工具的分类标准整理如下,其中经过综合评估影响力&潜力&成熟度后入选了100多个AI应用。
Design / 设计
Image / 图像
Layout / 布局
Brand / 品牌
Flows / 流程
Productivity / 生产力
Selfcare / 自我关怀
Learning / 学习
Conversational / 对话
General / 通用
Health Personal / 个人健康
Service / 服务
Text / 文本
Chat / 聊天
General/Prose / 通用/文章
Copy / 复制
Coding / 编码
Video / 视频
Creation / 创作
Animation / 动画
Enhancement / 增强
Editing / 编辑
Sound / 声音
Speech/Voice / 语音
Music / 音乐
Enhancement / 增强
👀 阿里「AnyText」多语言可视文本生成和编辑工具,AI生成图片可以包含指定文字
目前 Midjourney V6 和 OpenAI DALL·E 3 都可以生成带有指定文字 (仅限英文 ) 的图片了,只需要输入 Prompt 时遵循特定语法。这些工具生成的中文文字图片,效果就差了很多,而且不太受控制~ 不过!阿里最近发布的「AnyText」完美地解决了这个问题!
AnyText 是一款多语言可视文本生成和编辑工具,不仅支持中文,还可以生成英语、日语、韩语等 ,并且能够对图片中的文字内容进行编辑。
👆 这是项目的 Hugging Face 和魔搭社区的在线体验地址,跟随页面引导和说明操作就可以啦!非常简单~ AnyText 应该是目前生成含中文图片的最强大工具,整体测试下来效果非常不错!简单的海报、配图、Logo 、涂鸦、表情包等等,都可以动动手指快速完成啦!
另外,测试显示 AnyText 生成电商场景的营销图片效果尤其出色!猜测训练过程中使用了阿里大量的电商图片~
🉑 阿里 · 通义千问 App 疯狂整活,上传个人照片即可生成热舞视频
阿里最近整的另一个活是「通义听悟可以生成特定人物的跳舞视频了 」!!操作步骤非常简单,只需要手机安装通义听悟App,在首页输入「全民舞王」,就可以进入主题页面啦 (👆 如左图1)!
选择舞蹈:目前系统提供了十几种舞蹈,包括最近大火的科目三、二次元的极乐劲舞、慢摇/鬼步舞/民族舞和广场舞等,总有一款你喜欢~
上传照片:按照要求上传正面站立的无遮挡全身照,或者选择系统默认形象,就可以啦~
生成视频:点击后等待系统生成就可以啦~ 虽然提示有15分钟左右的等待时间,但一般两三分钟就可以搞定
🉑 我们还要谈「套壳」色变嘛?把壳做厚也是核心竞争力!
从百度文心一言被怀疑「套壳」ChatGPT,到李开复零一模型被质疑「套壳」开源模型LLaMa,「套壳」这个话题像乌云一样萦绕在生成式人工智能和大语言模型的上方。尽管有从业者陆续出现解释和辟谣,但更多人依旧一头雾水或讳莫如深。
套壳 = 抄袭 = 完蛋了?
甲子光年结合国内外大模型技术论文和AI从业者&投资人的访谈,对这个话题进行了正面回应。这篇文章非常不错,兼顾了通俗性和专业性 ,非常清晰地解释了大模型「诞生」的整个过程,梳理了哪些步骤和环节存在套壳的空间。
大模型内核的起源
2017 年, Google Brain 发布 Transformer 神经网络架构,逐步取代 RNN 与 CNN 成为 NLP 前沿研究的标准范式
Transformer 原始架构衍生出三个变体架构,代表模型分别为:谷歌 BERT、OpenAI GPT 系列模型、谷歌 T5
2020 年,OpenAI 首次提出了 Scaling Laws (尺度定律),NLP 研究正式进入大模型时代
GPT 架构的性能表现逐渐超越 BERT 与 T5,成为大模型的主流选择
→ 可以说今天所有的模型都是在「套壳」 Transformer 及其三个变体
大模型训练 = 预训练 + 微调
预训练 (Pre Train) 是大模型训练最核心的环节,通过把大量的文本信息压缩到模型中让模型具备世界知识;漫长的预训练后得到了基座模型 (Base Model)
预训练成本极高,只有具备充足的算力/财力的大公司,以及资本支持的雄心勃勃的创业公司,才会涉足基座模型
微调 (Fine-Tune) 通常分为 SFT (有监督微调) +RLHF (人类反馈强化学习) 两个步骤,其中 RLHF是 OpenAI 的创新设计,使得模型能够与人类意图与价值观对齐
在基座模型的基础上加入特定行业的数据集做进一步的微调,就会得到一个微调模型 (Fine-tuning Model) ,或者称为行业模型、垂直模型
预训练
第一派 | 从头自研预训练框架:百度和智谱AI (可能还有 Minimax、月之暗面 等但无法核实),这类公司数量很少
第二派 | 预训练框架基于开源的 Llama 2 并修改部分参数,然后进行完整的预训练过程,国内大多数大模型公司是这一派
需要注意的是:Llama 2 也是基于以往开源模型一步步发展而来的 ,以及模仿 Llama 2 并非代表没有核心竞争力
不论原创预训练框架还是模仿 Llama 2,两者都处在 GPT-3.5 的水平,性能差距不大 ;各家比拼的更多是工程化能力 (业内一般称为 AI Infra)
微调
数据的使用贯穿在大模型训练的每个阶段,但是预训练阶段「数据在多而不在精」,微调阶段「数据在精而不在多」
预训练阶段各家使用的互联网公开数据基本趋近,真正拉开差距的是微调阶段的数据质量
高效获取高质量数据集的方式,是直接利用 ChatGPT 或 GPT-4 等对话模型生成数据,同时确保数据多样性和完成了对齐,也是一种「套壳」行为;这一方式被称为「模仿学习 (Imitation Learning)」,借鉴了机器学习中的「知识蒸馏 (Knowledge Distillation) 」
注意!OpenAI 在服务条款中明确禁止使用 ChatGPT 生成的数据开发与 OpenAI 竞争的模型。但事实上,各类商业模型都在通过「偷」数据的方式来走微调的捷径,这已经是公开的秘密,并且不限国别
套壳五重进阶
这是大模型训练、推理和应用过程中,最常见的五种「套壳」方式
一阶:直接引用 OpenAI 接口
二阶:产品构建并积累自己的优质 Prompt
三阶:把特定数据集进行向量化,在部分场景构建自己的向量数据库,从而进行更精准的检索
四阶:使用优质问答数据进行二次训练,让模型更匹配对特定任务的理解
五阶:模仿 Llama2 架构进行预训练
结论
目前业内并没有明确统一的判断标准,脱离具体的场景谈论「套壳」是一种污名化的贴标签行为,当然大模型厂商也要慎用「自研」这个词以免产生误导
大模型真正关键的问题在于业务的成本结构和护城河,而不是套壳与否;把成本降低、把「壳」做厚,自然就产生了竞争力 ⋙ 强烈推荐阅读原文
🉑 大语言模型 (LLM) 挑选指南,AI开发者必备
blog.continue.dev/what-llm-to...
补充一份背景:项目最后更新于两个月前,之后发布的新模型没有被纳入清单;以及项目提供了一份 40+ 大模型详细信息的 CSV 文档
这篇文章很有意思!一看就出自行业老手,对常用大模型的性能和「使用手感」进行了介绍,帮助开发者快速决定如何选择,省掉了很多探索的时间。
开源大语言模型 (LLM)
适用场景:希望在本地环境中使用代码,拥有足够的内存资源,追求低成本,以及有能力全面管理和优化模型的开发者
Code Llama:由 Meta 训练,基于 Llama 2,提供 7B、13B 和 34B 三种不同规模的模型,是当前最知名的开源编程 LLM 基础模型
WizardCoder:由 WizardLM 团队开发,基于 Code Llama,采用 Evol-Instruct 方法进行微调,同样提供 7B、13B 和 34B 三种规模,是目前最受欢迎的开源指令调整大模型
Phind-CodeLlama:基于 Code Llama,由 Phind 进行微调,使用了约 80k 高质量编程问题和解决方案数据集,提供 34B 参数模型,但需要更多的内存资源
Mistral:由 Mistral AI 训练,拥有 7B 参数,于 2023 年 9 月发布,性能接近 CodeLlama 7B,同时在英语任务上表现良好
StarCoder:由 BigCode 训练,拥有 15B 参数,覆盖了 80+ 编程语言,虽然不是指令模型,但通过使用 Tech Assistant prompt 可以提升其表现
DeepSeek Coder:由 DeepSeek AI 训练,基于 2 万亿 token 的语料库,数据集包含 80+ 编程语言,在多种编程相关基准测试中表现优异
Llama 2:由 Meta 训练,拥有 2 万亿 token,是最受欢迎的开源大模型 (尽管在代码编辑方面略逊一筹) ,也是 Code Llama 的基础模型
商业大语言模型 (LLM)
适用场景:追求最佳模型性能,需要简单可靠的配置,内存资源有限,不介意代码离开本地环境,对成本不敏感的开发者
GPT-4:由 OpenAI 训练,是编程能力最强的大语言模型,通过 API 发送代码给 OpenAI,可能需要较高的成本
GPT-4 Turbo:比 GPT-4 更便宜且响应更快,知识截止日期为 2023 年 4 月,拥有 OpenAI API 账户或 GPT-4 访问权限的用户均可使用
GPT-3.5 Turbo:比 GPT-4 更便宜且响应更快,但提供的编程建议整体上不如 GPT-4,注册 OpenAI 账户后即可使用
Claude 2:由 Anthropic 训练,相比第一版在编程能力上有显著提升,需要通过 API 发送代码给 Anthropic;用户需要申请才能获得 Claude 2 的访问权限
PaLM 2:由 Google 训练,用户需在 MakerSuite 获取 API 密钥后,通过 PaLM API 将代码发送给 Google
👀 硬核极客拆解生成式AI:未来可期,但当下还不能解决复杂问题
Alex 是一位有着丰富开发开发经验的「Systems Programmer」,他12月撰文分享了他的生成式人工智能体验,以及相关的思考。原文有着非常丰富且硬核的体验细节,日报整理和摘录关键内容,感兴趣的话可以访问 👆 上方链接阅读原文~
- 魔法数字与计算
在大语言模型中,「魔法数字」(或者说权重) 通过一系列矩阵来表示网络模型
这些模型的核心计算过程,是将一系列数字与另一系列数字相乘,然后将结果传递给网络的下一层;这个过程最终会输出下一个最可能的单词预测,然后根据扩展的上下文来预测下一个单词,形成一个循环
- 数字的价值
由于对生成这些「魔法数字」进行了大规模投资,这些数字本身变得非常有价值;模型背后的「魔法酱料」更多地关乎于训练方式和训练数据
如果输入数据的选择不当,可能会导致模型产生偏见;而对专有生成模型的批评之一,就是其训练方法的不透明性,因为这极大增加了评估模型安全性的难度
- 更小的魔法数字
开源社区正在努力构建自己的模型,例如 Meta公司免费提供的 LLaMA 2语言模型,导致了开源项目的激增
在 Hugging Face 平台上发布的开源 RedPajama数据集,项目旨在重现 LLaMA 的训练数据
- 让你的魔法数字发挥作用
使用大语言模型的方式,其中「提示(prompts)」是指导模型输出特定结果的方式,「上下文 (context)」提供了模型回答问题的参考信息,而「幻觉(hallucinations)」则描述了模型输出错误或矛盾信息的情况
代码审查:分享了使用LLMs进行代码审查的经验,指出这些模型能够发现逻辑问题和提出改进建议,但也需要适当的提示来引导模型指出实际问题
编写代码:LLMs如何从头开始编写代码方面,以及根据描述生成代码;尽管LLMs可以生成相当基础的解决方案,但通常需要手动优化,在处理复杂任务时可能需要人工干预
散文:LLMs在散文写作方面表现自然,可以快速生成文本,但缺乏独特性;建议在LLMs生成的文本基础上进行修改,以保持个人风格
🉑 6种 AI Agents 结构图与优缺点,探索智能机器的未来
这篇文章介绍了六种类型的人工智能智能体 (AI Agents) ,并且探讨了它们的能力和局限性,以及在不同领域的应用。有图示、有说明、有举例,讲解得特别清楚!
简单反射智能体 (Simple Reflex Agent)
简介:遵循预定义规则,仅对当前情况做出反应,不考虑过去或未来的影响
适用:规则稳定、行动简单的环境
优点:易于设计和实现,实时响应环境变化,可靠性高
缺点:对输入传感器的依赖,缺乏记忆或状态,无法处理部分可观察性或未编程的环境变化
基于模型的反射智能体 (Model-based Reflex Agent)
简介:基于当前感知和内部状态 (代表不可观察世界) 执行行动
适用:更新内部状态以反映世界如何独立于智能体演变,以及智能体行动如何影响世界
优点:基于对世界的了解做出快速决策,适应环境变化
缺点:构建和维护模型的计算成本高,模型可能无法完全捕捉真实环境的复杂性
基于目标的智能体 (Goal-based Agents)
简介:使用环境信息来实现特定目标,使用搜索算法找到最高效的路径
适用:机器人技术、计算机视觉和自然语言处理等领域
优点:简单易实现,高效达成特定目标
缺点:对特定目标的限制,无法适应变化的环境
基于效用的智能体 (Utility-based Agents)
简介:基于最大化效用函数或价值做出决策
适用:需要在多个选项中进行比较和选择的应用,如资源分配、调度和游戏
优点:处理广泛的决策问题,从经验中学习并调整决策策略
缺点:需要准确的环境模型,计算成本高,不考虑道德或伦理考虑
学习智能体 (Learning Agents)
简介:能够从过去的经验中学习并提高性能,包括学习元素、批评者、执行者和问题生成器
优点:能够将想法转化为基于AI决策的行动,随着时间的推移而进化
缺点:可能做出有偏见或错误的决策,高开发和维护成本
分层智能体 (Hierarchical Agents)
简介:在层次结构中组织,高层智能体监督低层智能体
适用:机器人技术、制造和运输等领域
优点:资源效率,通过清晰的权威和方向来增强沟通
缺点:在解决问题时的复杂性,固定层次结构限制了适应性
感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们!
◉ 点击 👀日报&周刊合集,订阅话题 #ShowMeAI日报,一览AI领域发展前沿,抓住最新发展机会!
◉ 点击 🎡生产力工具与行业应用大全,一起在信息浪潮里扑腾起来吧!