MNBVC（Massive Never-ending BT Vast Chinese corpus）超大规模中文语料集。对标chatGPT训练的40T网页数据。MNBVC数据集不但包括主流文化，也包括各个小众文化甚至火星文的数据。MNBVC数据集包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词、商品介绍、笑话、糗事、聊天记录等一切形式的纯文本中文数据。

1.进度
目前总数据量342.85GB，目标是达到chatGPT的40T数据，目前进度0.8%。

2.数据说明
（1）压缩包内后缀为txt和json的文件均可作为中文纯文本语料。
（2）压缩包根目录的links.txt里有每个子文件夹数据来源的url。
（3）每个子文件夹内有一张png格式的图片，是数据来源的网页截图。
（4）收录的数据将去掉大于等于8位的数字串进行脱敏。

3.索引和分类
我们没有能力对数据来源进行版权审核。虽然本数据集包括了数据来源信息，但为了长而持久的提供数据集的更新和下载，为了尽量避免版权争议，本数据集不提供压缩包内数据的索引和分类。并恳请大家克制住自己的分享欲，不要讨论压缩包的索引及所包含具体内容的信息。请大家更多的关注大数据量语料本身的应用，拜托大家低调的使用数据。

4.分卷下载信息

参考文献：
[1]MNBVC：https://github.com/esbatmop/MNBVC
[2]拆解追溯GPT-3.5各项能力的起源：https://yaofu.notion.site/GPT-3-5-360081d91ec245f29029d37b54573756