OpenBayes 教程上新 | 1 分钟生成万字悬疑小说,LongWriter-glm4-9b 上线!

近年来,大语言模型 (LLM) 在理解和生成复杂文本时展现出强大的能力,能够处理高达 100,000 个 tokens 的输入,但在生成超过 2000 词的连贯输出时,往往会遇到困难。

**主要的原因之一是因为 SFT(监督式微调)数据集长输出样本的稀缺性。**研究表明,模型的最大输出长度与其在 SFT 阶段接触的样本长度有显著的正相关性。换句话说,尽管模型已经学会了如何理解和处理长文本,但它们还没有充分学习如何生成同样长度的文本。

为了解决这一问题,清华大学联合智谱 AI 基于 AgentWrite 技术构建了名为 LongWriter-6k 的数据集,包含 6,000 个 SFT 数据样本,输出长度从 2k 到 32k 个单词不等。该数据集目前已上线至 OpenBayes 公共数据集界面,支持一键 input。

数据集地址:

https://go.openbayes.com/CXBOc

随后,该研究团队还利用 LongWriter-6k,基于 GLM-4-9B 进行训练,得到了一个能够生成超过 10,000 字连贯文本的模型 LongWriter-glm4-9b,显著扩展了大型语言模型的输出潜力,在文学创作、新闻报道等实际应用中表现出极大的广泛性。

**目前,「一键部署 LongWriter-glm4-9b」已上线至 OpenBayes 公共教程界面,**一键克隆即可开启对话。

教程地址:

https://go.openbayes.com/GXQMm

操作步骤

01

Demo 运行阶段

  1. 登录 OpenBayes.com,在「公共教程」页面,选择「一键部署 LongWriter-glm4-9b」。
  1. 页面跳转后,点击右上角「克隆」,将该教程克隆至自己的容器中。
  1. 点击右下角「下一步:选择算力」。
  1. 页面跳转后,选择「NVIDIA RTX 4090」以及 「PyTorch」镜像,点击「下一步:审核」。新用户使用下方邀请链接注册,可获得 4 小时 RTX 4090 + 5 小时 CPU 的免费时长!

小贝总专属邀请链接(直接复制到浏览器打开):https://go.openbayes.com/9S6Dr

  1. 确认无误后,点击「继续执行」,等待分配资源,首次克隆需等待 2 分钟左右的时间。当状态变为「运行中」后,点击「API 地址」边上的跳转箭头,即可跳转至 Demo 页面。请注意,用户需在实名认证后才能使用 API 地址访问功能。

02

效果演示

  1. 打开 Demo 界面,我们让它生成一个 10000 字的悬疑小说。
  1. 可以看到它迅速输出了一个长篇悬疑小说。
相关推荐
云空6 分钟前
《DeepSeek 网页/API 性能异常(DeepSeek Web/API Degraded Performance):网络安全日志》
运维·人工智能·web安全·网络安全·开源·网络攻击模型·安全威胁分析
AIGC大时代8 分钟前
对比DeepSeek、ChatGPT和Kimi的学术写作关键词提取能力
论文阅读·人工智能·chatgpt·数据分析·prompt
Fhd-学习笔记33 分钟前
《大语言模型》综述学习笔记
笔记·学习·语言模型
山晨啊81 小时前
2025年美赛B题-结合Logistic阻滞增长模型和SIR传染病模型研究旅游可持续性-成品论文
人工智能·机器学习
一水鉴天2 小时前
为AI聊天工具添加一个知识系统 之77 详细设计之18 正则表达式 之5
人工智能·正则表达式
davenian2 小时前
DeepSeek-R1 论文. Reinforcement Learning 通过强化学习激励大型语言模型的推理能力
人工智能·深度学习·语言模型·deepseek
X.AI6662 小时前
【大模型LLM面试合集】大语言模型架构_llama系列模型
人工智能·语言模型·llama
CM莫问2 小时前
什么是门控循环单元?
人工智能·pytorch·python·rnn·深度学习·算法·gru
饮马长城窟2 小时前
Paddle和pytorch不可以同时引用
人工智能·pytorch·paddle
机器之心3 小时前
全面梳理200+篇前沿论文,视觉生成模型理解物理世界规律的通关密码,都在这篇综述里了!
人工智能