日语对话构建调查研究

日语对话构建调查研究

一,OKWave(オウケイウェイヴ)网站NLP数据调研

1.OKWave速递

OKWave网址:OKWave

网站印象图

2.调研结论

(1)可行性 :无特殊反爬手段,可直接从OKWave 网站抓取数据并构建对话。

(2)构建对话的质量评估:网站提供了多个领域的问答板块,覆盖了从科技,生活,娱乐,到社会和文化,很适合爬取做为对话AI的训练数据。

3.额外网站信息参考补充

(1)数据总量与日新增
数据总量 :该社区成立于1999年,已经有超过20年的历史,它是日本最早的在线问答社区之一,也是最大的之一,据调研帖子总数据量:826万条,可直接抓取帖子总量2万条。通过关键字,推荐间接抓取约100万条
日新增 :OKWave每日新增帖子的数量在400左右
MAU :每月月活约为1000万。

(2)网站简要介绍

OKWave(オウケイウェイヴ)是一家位于日本的在线问答社区,成立于1999年。它是日本最大的问答社区之一,有超过300万的注册用户,每个月有超过500万的独立访问者。OKWave提供了一个平台,让用户能够提出问题并得到其他用户的回答,同时也可以回答其他用户的问题。该网站提供了多个领域的问答板块,覆盖了从科技,生活,娱乐,到社会和文化等方方面面的主题。

一,教えて!goo(おしえて!グー)网站NLP数据调研

1.教えて!goo速递

教えて!goo网址:教えて!goo

网站印象图

2.调研结论

(1)可行性 :无特殊反爬手段,可直接从教えて!goo 网站抓取数据并构建对话。

(2)构建对话的质量评估:网站提供了多个领域的问答板块,覆盖了从科技,生活,娱乐,到社会和文化,很适合爬取做为对话AI的训练数据。

3.额外网站信息参考补充

(1)数据总量与日新增
数据总量 :综合日活与成立时间估计总帖子数一千万以上。分析网站可直接抓取帖子数:200万左右。
日新增 :每日新增700左右
MAU :2500万人

(2)网站简要介绍

与OKWave一样是日本最大的在线问答社区之一,成立于1999年。它为用户提供了一个平台,让他们可以提出问题并得到其他用户的回答,同时也可以回答其他用户的问题。该网站的内容涵盖了从科技,生活,娱乐,到社会和文化等方方面面的主题。

三,Yahoo!知恵袋网站NLP数据调研

1.Yahoo!知恵袋

Yahoo!知恵袋网址:Yahoo!知恵袋

网站印象图

2.调研结论

(1)可行性 :无特殊反爬手段,可直接从Yahoo!知恵袋 网站抓取数据并构建对话。

(2)构建对话的质量评估:网站提供了多个领域的问答板块,覆盖了从科技,生活,娱乐,到社会和文化,很适合爬取做为对话AI的训练数据。

3.额外网站信息参考补充

(1)数据总量与日新增
数据总量 :综合日活与成立时间估计总帖子数一千万以上。分析网站可直接抓取帖子数:200万左右。 包括可通过推荐与间接抓取数约100万
日新增 :每日新增4k左右
MAU :8400万人

(2)网站简要介绍

雅虎智慧袋(Yahoo!知恵袋,Yahoo! Chiebukuro)是雅虎公司提供的一个在线问答社区,成立于2003年,目前在日本非常受欢迎,是日本最大的问答社区之一。

该网站的内容话题非常广泛,涵盖了从科技,生活,娱乐,到社会和文化等方方面面的主题。用户可以在网站上提问和回答问题,每个问题都可以分配到一个特定的板块,例如健康、教育、美食、旅行等等,方便用户找到自己感兴趣的问题和回答。

四,Quora日本版网站NLP数据调研

1.Quora日本版

Quora日本版网址:Quora日本版

网站印象图

2.调研结论

(1)可行性 :进行小规模的测试,无特殊的反爬手段。只是最后获取评论涉及动态加载,用selenium模拟点击即可。可从Quora日本版 网站抓取数据并构建对话。

(2)构建对话的质量评估:网站提供了多个领域的问答板块,覆盖了从科技,生活,娱乐,到社会和文化,很适合爬取做为对话AI的训练数据。

3.额外网站信息参考补充

(1)数据总量与日新增
数据总量 :综合日活与成立时间估计总帖子数二百万以上。
日新增 :每日新增200左右
MAU :3万人

(2)网站简要介绍

Quora日本版的内容话题非常广泛,涵盖了各个领域的主题。与其他问答社区类似,Quora日本版的内容话题是由用户自主提出的,因此非常多样化和多样性。这种开放性的内容话题可以让用户获得各种不同的意见和建议,吸引了大量用户的参与。

相关推荐
方也_arkling19 小时前
【Java-Day08】static / final / 枚举
java·开发语言
风吹夏回20 小时前
Python 全局异常处理:从“满屏 try-except”到优雅兜底
开发语言·python
Chengbei1120 小时前
一站式源码安全检测工具、云安全 / APP / 小程序源码敏感信息递归多层目录扫描AK、JWT、手机号、身份证等敏感信息
java·开发语言·安全·web安全·网络安全·系统安全·安全架构
llz_11220 小时前
web-第一次课后作业
java·开发语言·idea
小熊Coding20 小时前
Python爬取当当网二手图书项目实战!
开发语言·爬虫·python·beautifulsoup·requests·二手图书
秋920 小时前
Java项目运行5天左右自动宕机:系统性定位与解决方案
java·开发语言·python
小江的记录本20 小时前
【JVM虚拟机】垃圾回收GC:垃圾收集器:CMS:核心原理、回收流程、优缺点、废弃原因(附《思维导图》+《面试高频考点清单》)
java·jvm·后端·python·spring·面试·maven
xiaoshuaishuai820 小时前
C# 内存管理与资源泄漏
开发语言·c#
lsx20240621 小时前
SVN 检出操作
开发语言
田里的水稻21 小时前
OE_ubuntu26.04与宿主机之间复制粘贴内容
人工智能·python·机器人