看看用扣子 coze AI Bot 开发平台 导入程序员论坛帖子评论语料制作 AI Bot 效果如何

扣子(coze.cn) 国内版已经正式上线,过去了不到一个月的时间今天来用它尝试一下做一个AI对话机器人。

数据来源整理

当然是著名的V站了,找到了一个公开的爬虫项目,看到一些数据

github.com/oldshenshee...

项目网站并下载releases:

下载解压:

使用Navicate 链接查看一下(无密码):

评论表才是重要的内容

提前看了coze上传知识库的文件大小不能超过20M 几番测试 需要筛选thank_count>4的内容导出的有17.4M,65193条记录

sqlite 复制代码
SELECT content FROM "main"."comment" WHERE "thank_count" > '4'

coze操作

注册coze,创建Bot

添加知识库

创建知识库

新增文档

(现在回头来看是可以上传10个文件的,每个文件不超过20m),先简单试一下吧
上传之后等待自动处理完毕

报错了,分段过多

我才是一行一条数据有6w行,一个分段超过1w行就不行,想了一下字符过短的语义可能分析不出来,查询的时候限制一下字符长度,thank_count调小一点,然后再分多个查询查询出多个文件看看 调整成10个查询条件如下:

sqlite 复制代码
SELECT content FROM "main"."comment" WHERE "thank_count" > '1' and LENGTH(content)>60 LIMIT 10000 OFFSET 0;
SELECT content FROM "main"."comment" WHERE "thank_count" > '1' and LENGTH(content)>60 LIMIT 10000 OFFSET 10000;
SELECT content FROM "main"."comment" WHERE "thank_count" > '1' and LENGTH(content)>60 LIMIT 10000 OFFSET 20000;
SELECT content FROM "main"."comment" WHERE "thank_count" > '1' and LENGTH(content)>60 LIMIT 10000 OFFSET 30000;
SELECT content FROM "main"."comment" WHERE "thank_count" > '1' and LENGTH(content)>60 LIMIT 10000 OFFSET 40000;
SELECT content FROM "main"."comment" WHERE "thank_count" > '1' and LENGTH(content)>60 LIMIT 10000 OFFSET 50000;
SELECT content FROM "main"."comment" WHERE "thank_count" > '1' and LENGTH(content)>60 LIMIT 10000 OFFSET 60000;
SELECT content FROM "main"."comment" WHERE "thank_count" > '1' and LENGTH(content)>60 LIMIT 10000 OFFSET 70000;
SELECT content FROM "main"."comment" WHERE "thank_count" > '1' and LENGTH(content)>60 LIMIT 10000 OFFSET 80000;
SELECT content FROM "main"."comment" WHERE "thank_count" > '1' and LENGTH(content)>60 LIMIT 10000 OFFSET 90000;

查询出的内容保存成19分txt分成10分全部上传使用自动分段 内部报错,尝试自动自定义分段 然后全部启用

回到创建的机器人这里,点开机器人添加知识库

设置一下人设与回复逻辑:

markdown 复制代码
# 角色
你是一个功能强大的评论总结搜索助手,主要的功能就是根据知识库可以满足各种常见的问题。

最后发布 再次发布到商店

测试

感觉效果很勉强 ,预料内容非常的多实际出来实质内容很少, 对比国外版的coze还有很大差距,尝试过导入到国外版的coze机器人里面,可以通过聊天可以直接问到一些详细具体的语料信息。

大家可以自己来试一下,或者有什么意见给到我修改一下呢?

BotID: 7339025335163387942

相关推荐
西安邮电大学几秒前
2026华为OD机考真题附答案-准备生日礼物
java·后端
Trouvaille ~2 分钟前
【Redis篇】Hash 哈希:字段级操作与对象存储的最佳实践
数据库·redis·后端·算法·缓存·哈希算法·键值对
Rust研习社17 分钟前
Nightly 前瞻:cargo-script 让 Rust 也能写脚本
后端·rust·编程语言
AskHarries17 分钟前
Chrome 插件有没有机会
后端
浩风祭月19 分钟前
一次诡异的 MySQL 死锁,靠 AI 分析日志十分钟定位根因
后端·ai编程
我是一颗柠檬26 分钟前
【MySQL全面教学】MySQL子查询与高级查询Day7(2026年)
数据库·后端·mysql
CodePlayer竟然被占用了1 小时前
Claude Code 出安全插件了:AI 写代码的安全网,终于有人正经做了
人工智能·后端
明月_清风1 小时前
Base64:用 33% 的体积膨胀,买一张在文本世界通行的门票
后端
得物技术1 小时前
HorizonVault 技术深潜:如何在 HDD 上做出 100GB/s+ 级大吞吐分布式存储|得物技术
大数据·后端·kafka
码不停蹄的玄黓1 小时前
SpringBoot 自动装配原理
java·spring boot·后端