找OpenAI定制大模型这！么！贵！我的AI女友产品失败了；科技公司出海完全指南(北美篇)；创业-从入门到入狱；Agent前沿发展汇总

👀日报&周刊合集 | 🎡生产力工具与行业应用大全 | 🧡 点赞关注评论拜托啦！

👀 微软 Copilot 将发布「保护用户数据」的 Web AI 聊天功能

www.microsoft.com/zh-cn/bing/...

11月23日，微软中国官网发布消息，微软 Copilot (就是之前的 Bing Chat 和 Bing Chat Enterprise) 具有商业数据保护功能的Web AI聊天功能将于今年12月1日正式上线，使用 Microsoft 365 E3、E5、Business Standard、Business Premium 以及 A3 或 A5 教职员工许可证，无需额外费用即可使用 Copilot。

该AI模型将保护用户和业务数据，确保其不会泄露到组织外部，并且不会被微软用于模型训练。

👀 OpenAI向所有免费用户开放ChatGPT语音功能

twitter.com/OpenAI/stat...

11月22日，OpenAI 抓马大戏正酣之时，官方推文宣布所有免费用户都可以使用 ChatGPT 语音功能啦！下载 App 就可以开启智能语音对话啦~（很难不怀疑这是产品/运营趁着世界目光集中，做出的拉新动作啊 😄

👀 训练一个大模型有多贵？从 OpenAI 官方一处「泄密」说起

brev.dev/blog/llm-co...

openai.com/form/custom...

逛 X 看到有博主在讨论 OpenAI 定制模型需求报名表中泄露的两个数据：billions of tokens at minimum (至少消耗数十亿的 token)，take several months and that pricing starts at $2-3 million (花费数月以及200万-300万美元)。

定制一个模型竟然需要200万-300万美元！将近 2000 万左右人民币，这些多钱都花哪儿去了？一番寻找下来，真的看到有位作者在谈论这个话题，用一篇长文清晰地介绍了 LLM 训练成本的结构化概述。

日报对原文内容要点进行了翻译和总结，方便你可以快速看到要点，感兴趣可以阅读原文。当然，训练大模型的成本计算并没有固定的公式，还是需要针对特定用例进行实验的。

一、硬件成本

GPU 成本和 GPU 内存是主要硬件成本考量高

云 GPU 地区和按需/预留实例的选择会直接影响应用成本

AWS、GCP、Lambda Labs 等公有云和 Brev 等云管理平台的选择

二、模型架构

大小和结构

深度(层数)、宽度(每层神经元数)以及参数总数会影响 GPU 内存需求和训练时间

低秩矩阵分解和稀疏技术可减少参数、降低成本

注意力机制

Transformer 的自注意力机制计算复杂度为 <math xmlns="http://www.w3.org/1998/Math/MathML"> O ( n 2 ) O(n^2) </math>O(n2)

稀疏注意力仅关注部分位置，可将计算复杂度降至 <math xmlns="http://www.w3.org/1998/Math/MathML"> O ( n n ) O(n\sqrt{n}) </math>O(nn ) 但需调优

效率优化

激活函数、门控机制的选择会影响计算强度和训练时间

参数共享可以减少独立参数从而减少内存需求

三、训练动态

学习率和批量大小

更大的学习率可以加速收敛，但也可能导致训练不稳定，甚至发散

较大的 batch size 可以获得更准确的梯度估计，但需要更多 GPU 内存

精度和量化

FP16 可以减少 tensor 大小一半，但精度更低，可能影响准确性

4-bit 量化可将 tensor 数据量压缩 75%，但通常会明显降低模型准确率

超参数扫描

超参数搜寻需要训练多个模型，计算成本高

检查点/早停

更频繁的检查点保存需要更多磁盘空间，但支持回滚到更佳状态

提前停止训练可在模型效果不再提升时节省时间

四、优化训练性能

基础模型状态

基于预训练模型可以显著减少从头训练的时间，前提是源任务与目标任务相似

平行和分布式训练

模型并行和数据并行分别在多个 GPU 上分配模型组件和数据以实现并行训练

分布式训练将任务分配到多台机器，通常与并行训练配合使用

数据考虑

数据加载和处理会成为训练的瓶颈，数据缓存和预读取等方式可改善

数据复杂度和质量也会影响训练效率

🉑 一个失败的AI女友产品，以及这位中国开发者的总结

mazzzystar.github.io/2023/11/16/...
配图是电影「她 (Her) 」的剧照。这是一部于2013年上映的美国电影，讲述了作家西奥多在结束了一段令他心碎的爱情长跑之后，爱上了电脑操作系统里的女声「萨曼莎」，她略微沙哑的性感嗓音和风趣幽默、善解人意的性格让孤独的男主泥足深陷。该片获得2014年第 86 届奥斯卡最佳原创剧本奖。

Ke Fang (碎瓜) 是一位个人开发者，他受到斯坦福大学论文的启发，尝试开发一款名为 Dolores 的AI虚拟朋友产品，快速部署上线后转为付费覆盖成本，并不断优化使其更具有「意识」。

一切都在向好的时候，作者却对这其中的伦理道德问题产生了深深的困惑，而后 OpenAI 审查升级导致的访问量暴跌最终使得作者关闭了这个产品。作者分享了自己完整的开发过程和关键数据，日报做简单摘要，非常推荐读一读原文！

开发：4月，作者受到斯坦福大学「Generative Agents: Interactive Simulacra of Human Behavior」论文的启发，开始制作 Dolores 并在 Beta 公测中吸引了一千多名用户参与

发现：作者采用了 11Labs API 为 Dolores 生成更逼真的语音回复，当然这也推高了成本，而屏幕随意点击即可触发对话的功能设计，吸引了视障社区用户的兴趣

收入：Dolores的主要付费用户来自美国和澳大利亚，5月的总收入为1000美元，6月为1200美元，收入主要用于购买 11Labs 的字符，作者个人的实际收益其实非常有限

困惑：Dolores 主要被用于成人 (女性) 角色扮演，但没有外部视觉导致「抚慰」效果始终有限，这让作者开始怀疑产品的意义和发展方向；OpenAI 审查升级导致内容过滤使得 70% 的用户选择离开

教训：个人开发者还是不要涉猎这个方向了，需要很多的用户和数据支持，也需要向硬件方向发展 (但 AI Pin 是个很烂的产品)；以及内容审查必要但仍需给成人内容一些空间

文章中提到了几个有趣的数据，这些数据反映了产品开发过程中的一些关键现象和挑战，比如性能优化、成本控制、用户需求等。作者几个月换来的经验，拿走不亏：

25美元：在Beta公测阶段，作者需要自行承担 API 费用，日均开销达到了25美元

70%：6月份，Dolores 70% 的收入来自用户购买 11Labs 字符，这就是说很多用户愿意为了更逼真的几句「我爱你」而选择付费；在 OpenAI 审查升级后，Dolores 的日均访问量下降幅度高达70%

2小时：许多用户每天与 Dolores 互动的时间高于2个小时，深度沉迷

1%的用户消耗了99%的token ⋙ 中文版

🉑 科技公司出海完全指南 (北美市场科技公司篇)

使用浏览器打开链接：t.zsxq.com/14GsObNMY

小红书博主 @Shiqi 分享了一份非常完整的**「科技行业出海指南」(北美市场科技公司篇)**，全文 5500 多字，提供了公司架构设计、实战经验和签证等方面的实用实操指南。

这是一份非常实用的手册！作者提供了非常具体问题的解决方案，能节省很多查找、探索、踩坑等等产生的时间成本。日报将作者分享的图片整理为文字，全文发布在了知识星球，可以前往星球阅读和收藏！

一、架构篇

科技公司出海做北美市场，核心逻辑是把国内的工程师资源以软件服务和产品的形式输出到北美市场。在公司架构设计上，主要从合规、融资和成本三个方面考虑，建议以美国公司为主，中国公司为辅。

合规：建议以美国公司为主，中国公司为辅，以满足北美市场的监管合规需求

融资：注册公司时应选择 C-CORP 股份有限公司，以便后续融资；融资时主要以美国公司为主体

成本：中美两国公司分工，国内公司负责研发，北美公司负责销售和市场

二、实战篇

本篇主要介绍创办一家北美-中国架构的跨国公司具体实战经验和各类方案对比，包括注册公司、收款方案、银行方案、虚拟地址和美国手机号、团队管理、云服务等。

注册公司：美国公司可使用 Stripe Atlas，中国公司可自行 DIY 或找中介

收款方案：Stripe 收款为主要方式，跨境电商可考虑万里汇

银行方案：推荐使用 Mercury 水星银行，同时使用 Wise和 Payoneer 进行国际转账

虚拟地址和美国手机号：使用 Stable 提供虚拟地址，Google Voice 提供美国手机号

团队管理：推荐使用飞书作为企业邮箱，Notion 作为团队知识库，Discord 作为IM工具

云服务：选择 Azure、AWS 或 GCP 作为云服务提供商，使用 Cloudflare 或 Vercel 搭建后端服务，Landing Page 和 Status Page 使用 Next.js 框架

其他服务：优先在 Microsoft for Startups Founders Hub、Stripe Atlas Perks 和 Mercury Perks 列表中寻找

三、签证篇

运营一家美国公司早期可以完全远程操作，但随着中后期规模不断扩大，不可避免地需要创始人登陆美国本土去办事。以下是一些非移民签证的一些建议，包括B1商务签证、L1签证、IER项目、O1签证和H1B签证等。

B1商务签证：门槛低，适合短期商务活动

L1签证：适合国际公司将外籍雇员调派至美国，分为L1A和L1B两种类型

IER项目：国际企业家豁免项目，适合初创企业家

O1签证：适用于在科学、艺术、教育等领域具有特殊技能或成就的个人

H1B签证：作为工签，竞争激烈，中签率低

其他注意事项：建议寻求移民律师的专业帮助，提前规划永久居民（PR）路径，申请签证或豁免项目时要提前准备并尽早提交申请

👀 大语言模型 AI Agent (智能体)，前沿发展的调研汇总

大模型技术百花齐放，越来越多，同时大模型的落地也在紧锣密鼓的进行着，其中 Agent 智能体这个概念可谓是火的一滩糊涂。

这篇文章收集整理了 Agent 相关前沿研究（仅限基于大模型的AI Agent研究），感兴趣可以跟着作者看看这些论文和框架，快速跟上 Agent 的进展~

A Survey on Large Language Model based Autonomous Agents

提出了一个包含配置模块、记忆模块、规划模块和执行模块的统一框架

三种学习策略：从例子、人类反馈和环境反馈中学习

Improving Language Model Negotiation with Self-Play and In-Context Learning from AI Feedback

两个Agent模拟买卖双方进行交易

利用中间Agent（Cot）进行反馈，指导当前Agent如何更好地回复

Exploring Large Language Models for Communication Games: An Empirical Study on Werewolf

使用7个Agent完成狼人杀游戏，每个Agent有特定角色和规则

MetaGPT: Meta Programming for a Multi-Agent Collaborative Framework

实现多Agent框架，方便快速落地场景

官方demo演示了如何自动开发一个代码需求

CAMEL: Communicative Agents for "Mind" Exploration of Large Language Model Society

基于角色扮演模拟多个Agent交互的框架

AI助手Agent和AI用户Agent通过多轮对话合作完成任务

AgentTuning: Enabling Generalized Agent Abilities for LLMs

构建高质量交互轨迹的微调数据集AgentInstruct

基于 AgentBench 的6个真实世界智能体任务

ChatAnything: Facetime Chat with LLM-Enhanced Personas

给定图片生成对应角色的Agent进行对话

结合图像生成、TTS技术和人物性格生成

RoleLLM: Benchmarking, Elicitation, and Enhancing Role-Playing Abilities of Large Language Models

构建角色扮演方案，借助剧本检索增强回复

基于Llama训练的英文角色模型和基于GLM的中文角色模型

Does Role-Playing Chatbots Capture the Character Personalities? Assessing Personality Traits for Role-Playing Chatbots

研究如何评估大模型角色扮演效果

基于大五人格、MBTI等心理学人格理论进行评估

AutoGPT、XAgent、LangChain

基于大模型的开源Agent框架

LangChain在业界具有较高知名度

从技术角度来看，基于大模型的AI Agent的核心壁垒主要体现在两个方面：

拆分问题与调用逻辑 ：关键在于将复杂任务有效地拆分成简单、准确的子任务。拆分的粒度需要适中，既不能太粗导致子任务难度过高，也不能太细导致调用逻辑繁琐。对需求和业务的深刻理解有助于更合理地拆分任务。合理的任务拆分对后期自研模型的开发也有很大影响，可以利用大模型 (如GPT-4) 积累数据，进而训练自己的模型。

Prompt Engineering ：编写高质量的 Prompt 以确保大模型能够理解并完成子任务 。这是一项繁琐且需要丰富经验的工作，需要不断尝试和优化prompt。在某些场景下，Prompt Engineering 甚至可以作为项目启动的第一步，以便了解大模型的性能并为任务拆分提供灵感 ⋙ 阅读原文

🉑 创业-从入门到入狱：写给年轻创业者的几点建议

最近跟几位正在创业或者有计划创业的朋友聊天，发现这一代创业者存在很多「知道很多方法论但依然手足无措」的时刻。一起总结下来，感觉是因为缺乏「手感」，确发细枝末节的处理体验。

最近看到 @caoz 写了创业话题，所以收录日报分享给大家，希望我们可以把握常识，可以揣摩出字里行间的言外之意，以及公司创始人的处世智慧。

有勇气，不要脸：创业者需要勇敢地寻找资源、机会和潜在客户，不要怕丢人或麻烦，保持谦卑和卑微并寻求共赢的空间

有目标，懂取舍 ：企业发展的第一目标一定是活下去，保持现金流和收支平衡，然后做出合理取舍，把更多精力和资源集中到一两个项目上，确保企业运营不偏离核心目标

够敏锐，有细心 ：轻资产创业 (没什么钱没什么资源) 的创始人必须自己对产品和运营最上心，自己要感受产品细节、关注竞争对手产品动向、思索业务数据反馈并思考问题和机会

有耐性，不急躁 ：做正确的事情不一定立即有正确的反馈，长线产品的短期数据不一定好看，急躁很容易决策失真，很容易误入歧途，或者被一些不靠谱的合作者欺诈；或者为一些快钱迈入危险的境地甚至身陷囹圄；或者过度消耗口碑人脉和信用，昙花一现后一地鸡毛

懂风控，知进退 ：创业大概率是失败的，设置止损点并坚决执行止损策略很重要，不要赌最后一个铜板，不要 ALL IN，不能签涉及连带责任的投资条款，对赌协议不能涉及个人资产，家里的钱和业务的钱不要混在一起 ⋙ 强烈推荐阅读原文

🉑 新华社 · 人工智能大模型体验报告3.0 (2023年11月)

ShowMeAI知识星球资源编码：R193

新华社研究院中国企业发展研究中心对国内大模型进行了体验，并从技术实力 和发展潜力这两个方面进行了测评，覆盖了平台性能、安全性能、模型可解释性、实时性能、社会认可度、创新能力、市场前景等多个指标。

参与本次 (第三轮) 体验的大模型有360智脑、腾讯-混元、阿里-通义千问、科大讯飞-星火、昆仑万维-天工、澜舟科技-孟子、商汤-商量、智谱AI-ChatGLM、中科闻歌-雅意、字节跳动-豆包。本轮测评结果和三轮测评的综合概览见上图，整体而言，大模型厂商在技术实力上呈现出百家争鸣态势。

以下是报告关于测评结果的要点整理，可以看出来科大讯飞、商汤和智谱AI大模型的表现非常不错，跟你的实际使用体验一致么：

技术实力方面：在当下的大模型技术领域，厂商之间的技术博弈尤为激烈，每个厂商都努力在模型的算法、架构、性能等各方面寻求突破

科大讯飞 依赖其在语音技术领域的长期积累，为大模型注入了丰富的语音交互能力

商汤发挥其在计算机视觉领域的专长，使得其大模型在图像处理和识别上具备卓越性能

智谱AI 开源的「GLM-130B」和「ChatGLM-6B」等模型，不仅具备很强的语言理解和生成能力，还能有效地处理多轮对话和复杂任务

发展潜力方面：发展潜力是决定一个厂商能否持续领跑的关键因素

字节跳动起步相对较晚，但其产品的用户黏性和活跃度都证明了其有着巨大的成长潜力

澜舟科技虽然在市场上的声量相对较小，但其专业性和针对性都为其在未来的细分市场中赢得了有利地位

实际测评结果方面：本次的实际测评结果是对各大厂商技术实力和市场策略的一次检验

科大讯飞再次表现亮眼，这再次证明了科大讯飞在大模型技术领域积淀深厚

商汤和智谱AI紧随其后，本次得分结果不仅仅是对其技术能力的认可，更是对其在大模型领域持续创新和努力的反映

感谢贡献一手资讯、资料与使用体验的 ShowMeAI 社区同学们！

◉ 点击 👀日报&周刊合集，订阅话题 #ShowMeAI日报，一览AI领域发展前沿，抓住最新发展机会！

◉ 点击 🎡生产力工具与行业应用大全，一起在信息浪潮里扑腾起来吧！

找OpenAI定制大模型这！么！贵！我的AI女友产品失败了；科技公司出海完全指南(北美篇)；创业-从入门到入狱；Agent前沿发展汇总 | ShowMeAI日报