短短 3 天,全球迎来了 GPT 应用大爆发,时代爆款已现雏形。
1 分钟诞生一个新的 GPT!
不到一周的时间,各种定制 GPT 全球大爆发,增长速度已经完全超乎所有人的想象。

这恰恰,印证了 Altman 在开发者大会所说的一句话,「我们正在孕育新物种,它们正在迅速增殖。」

全网都在唱衰 Agent 初创公司,甚至就连开发者的研究方向将要发生翻天覆地的变化。


另一边,Karpathy 一条推文推波助澜,更是暴露了 OpenAI 的野心------让 GPT 模型成为大模型的操作系统。
他以一种调侃的方式,还给出了大模型 OS 具体的「技术规格」:
• LLM:OpenAI GPT-4 Turbo 256 核(批大小)处理器 @ 20Hz(token/s)
• RAM:128K token
• 文件系统:Ada002

顺提一句,Sam Altman 刚刚宣布,新版 GPT-4 Turbo 也上线 ChatGPT 了,也就是说 128k 上下文大家可以用到手了。

GPTs 开放后,人们的创作热情瞬间被激发,而它的潜力就在于天才的创意爆发,这种 UGC 形式总会出现时代爆款。
定制版 GPT 最全系列总结
原来,ChatGPT 其实只是一个试用版,GPTs 才是 OpenAI 推出的真正的 AI 产品。

GPT-4 发布以后,OpenAI 只用了半年多点的时间,就让自己从全世界最好的基础大模型提供商,成为了全世界最好的 AI 应用提供商。

现在网上各种平台收录的 GPTs 应用,已经多达 3000+!

在 GPTs 里,全世界各行各业最有创意的人,都在用自己的经验和数据,帮助 OpenAI 开发 AI 应用。

从专业领域的精准信息服务,到人生问题的答疑解惑。

再到学术科研的强力助手,这短短 3 天时间出现的 GPTs 适用范围几乎覆盖了任何你能想象到的所有领域。

实在没想到,AI 大佬那句名言,「所有应用都需要被 AI 重构」,短短 3 天就已经发生了。
我们挑选了现在网上最火的那些 GPTs,带大家看看这个兔子洞到底有多深!
C-RPG 游戏生成 GPT
一个名为 Retro Adventures 的 GPT 应用。它可以现场给你制作一个像素风的 C-RPG 文字游戏。

只需要给他一个特定的主题,它就能生成具体的游戏。我们选择了《海底两万里》,这是它生成的开头:

在通过一张图片和一段文字介绍了游戏的背景之后,这个游戏就制作完成了。玩法就很像 C-RPG 或者 mud 游戏一样,通过对话来体验游戏内容。

在选择了驾驶潜艇探索神秘水域之后,游戏继续:

玩家可以从每次生成的 3 个选项中选择一个推进游戏,也可以直接输入自己想做的事,Retro Adventures 都可以给你生成很有意思的游戏内容。

这次,我没有尊崇它的建议,选择按自己的想法来推进游戏,回复说:我在海底发现了一个火锅店,进去试了试。

结果它真的能顺着我的思路,带我进去体验了一下海底两万里吃火锅是什么体验!

然后我们又重新开了一个《西部世界》,游戏体验也非常有意思。

梦境贴纸制作器
还有一个是 ChatGPT 官方制作的「梦境贴纸」GPT,可以让用户把自己做过的梦的内容直接做成可以用的贴纸,直接快递到家里!

按照介绍里的说法,我们就创作了一个非常「狂野」的梦境:



理想型男友来了
知名博主 @dotey 老师应广大网友呼声,做了一个「男友 GPT」。

这个男友人设,包容心强。
特点:幽默不失深度、赤子之心不失分寸、理想主义不失质朴,最重要的是在命运面前永保倔强与善良。

chat.openai.com/g/g-IlNu7BV...
都来考验考验,这个男友合不合格?

剁手 GPT,买买买无忧
来自 Databricks 的工程师 Quinn Leng 制作了一款「剁手 GPT」。
它强大之处就在于,随手拍下来任何物品,可以自动识别,全网比价,还能提供购买建议。


比如你可以输入一个健身器材的图片,然后「剁手 GPT」就开启全网搜索,为你总结出具体列表。

科研利器,AI 论文润色专家上线
「AI Paper Polisher Pro」简直是一款 AI 科研利器。
它可以为完善 AI 会议论文提供直接明了的建议,重点关注论文结构、技术精度和视觉元素的 LaTeX 代码。
甚至,它还能分析论文截图,提供不同层面的反馈,包括总体布局和结构,以及详细的写作建议。

有网友表示,我要的就是这个!

GPTs 太多,一问搞定
国内一位开发者表示,现在涌现出上千个 GPTs,实在不知道如何下手,所以建了一个专门「推荐 GPT」的 GPT。

chat.openai.com/g/g-iD7sLuO...
比如说你想学英语,不用费劲去找,直接问「GPTofGPTs」就可以了。

中华小厨神,一键生成各种经典中餐

GPT 地址:chat.openai.com/g/g-VrmZ5hQ...
除了告诉你怎么做菜,还能根据你的生活方式给你推荐各种菜式。

想做自己的 GPT 但是不会?让 GPT 教你

GPT 地址:chat.openai.com/g/g-Z0f6pPP...

3D 打印大师,5 分钟入门 3D 打印

GPT 地址:chat.openai.com/g/g-W0lCzVA...

我们简单根据内容检索后发现,这 4 台推荐的型号确实还挺靠谱。
GPT-4 Turbo 性能卡在 73K
首届开发者日当天,Altman 将 GPT-4 API 升级为 GPT-4 Turbo,时间更新到 2023 年 4 月。
最重要的是,上下文长度最大可达 128k,相当于 300 页的文字内容。
其价格约是 GPT4 的 1/3,速度更是几乎飙升 4 倍。

究竟有多快,直观感受下。

但 GPT-4 128K 真实性能如何,一位工程师对其进行了压力测试。

结果发现,GPT-4 的召回性能在 prompt 超过 73K token 时开始下降。
召回性能与召回事实所在的位置相关,当处在 7%-50% 之间时,性能低。如果事实在文档的开头,则无论上下文长度如何,都会被召回。

这就说明,GPT-4 检索事实不能保证 100% 准确,不要假设它一定会检索出所有事实。
那有什么好的解决方案呢?
众所周知,较少的上下文 = 更高的准确度。提供较少的上下文输入可以提高 GPT-4 召回事实的准确率。
另外,事实所在文档中的位置也很重要。在文档开头和下半部分加入要召回的事实,更有利于模型回忆。
这位工程师 Greg Kamradt 的测试流程如下,使用 Paul Graham 的 218 篇文章作为「背景」token。
然后,在文档的不同深度放置一个随机语句,事实使用「在旧金山最幸福的事,就是在阳光明媚的日子里,坐在 Dolores 公园吃三明治」。
要求 GPT-4 仅使用提供的上下文来回答这个问题,使用 LangChainAI evals 另一个模型(GPT-4)来评估 GPT-4s 的答案。
再接着,对 15 个文档深度(从 0% 文档顶部到 100% 文档底部)和 15 个上下文长度(从 1K 到 128Ktoken)重复这一过程。
在较大的上下文长度下运行了 2 次测试,以得出更高的性能。
最后,Kamradt 表示,「虽然我认为这在方向上是正确的,但需要更多的测试才能更明确的掌握 GPT4 的能力」。
对于这次测试的费用,大约 200 美元(1457 元),128K 输入 token 的单次调用费用为 1.28 美元。
此测试的 API 调用费用为 ~200 美元

这一测试项目的源代码已开源,感兴趣的可以动手测试下。

GPT-5 开启灰度测试?
有网友发现 OpenAI 已经开始灰度测试 2 个新的功能:魔法创造(Magic create),还有 Gizmo。

Gizmo 这个模型的名字,或许很多人并不陌生,就是传说中的 GPT-5。它的训练时间截止到 2022 年 1 月。

你们怎么看?
参考资料: