Refined-Anime-Text 该数据集是一个全新合成的动漫主题子集,包含超过一百万条、约4400万个 GPT-4/3.5 token的文本数据。 数据集的创建成本约为 2.5 万美元,其中 GPT-4-32K 占比不低于 25%,主要用于处理更具挑战性的中文任务。 数据集旨在用于研究大型语言模型中网络亚文化的数据治理,以及探索持续预训练问题,如特定主题的知识蒸馏和对未见知识的持续学习。 智享AI工具导航,欢迎联系微信:ZhiXiang-WeiLai