阿升

V1

2023/01/20阅读:187主题:默认主题

MNBVC超大规模中文语料集

  MNBVC(Massive Never-ending BT Vast Chinese corpus)超大规模中文语料集。对标chatGPT训练的40T网页数据。MNBVC数据集不但包括主流文化,也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

1.进度
  目前总数据量342.85GB,目标是达到chatGPT的40T数据,目前进度0.8%。

2.数据说明
(1)压缩包内后缀为txt和json的文件均可作为中文纯文本语料。
(2)压缩包根目录的links.txt里有每个子文件夹数据来源的url。
(3)每个子文件夹内有一张png格式的图片,是数据来源的网页截图。
(4)收录的数据将去掉大于等于8位的数字串进行脱敏。

3.索引和分类
  我们没有能力对数据来源进行版权审核。虽然本数据集包括了数据来源信息,但为了长而持久的提供数据集的更新和下载,为了尽量避免版权争议,本数据集不提供压缩包内数据的索引和分类。并恳请大家克制住自己的分享欲,不要讨论压缩包的索引及所包含具体内容的信息。请大家更多的关注大数据量语料本身的应用,拜托大家低调的使用数据。

4.分卷下载信息

参考文献:
[1]MNBVC:https://github.com/esbatmop/MNBVC
[2]拆解追溯GPT-3.5各项能力的起源:https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756

分类:

人工智能

标签:

自然语言处理

作者介绍

阿升
V1

吾爱DotNet(公众号)