太阳集团城8722(中国·Macau)有限公司-Official website

新闻文章类别分类数据集

本数据集是一个适用于自然语言处理任务的高质量、已标注的新闻文章集合。它包含了超过20万篇新闻文章,每篇文章都带有标题、简短的摘要、作者、发布日期,以及多类别主题标签。数据集已经过系统的清洗与预处理,移除了重复项与缺失记录,并标准化了文本与日期格式。其规模庞大、类别多样、文本结构清晰的特点,使其成为进行多类别文本分类、主题建模、新闻摘要生成等任务的理想基准数据,尤其适合用于教育、研究和算法开发。

行业:
传媒
国标分类:
行业通识数据集
15
17
2026-02-12

数据集介绍

数据属性

数据模态
图像 表格
数据格式
CSV
记录数/样本数
206,549条
文件数量
1个
总大小
49.1 MB
数据语言
英文
地理覆盖范围
全国
时间覆盖范围
2012-2022年
数据更新频率
无明确更新频率
数据采集方式
公共数据集获取
预期用途
预训练 评估
标注状态
完全标注
标注类型
分类标签
数 据 驱 动 未 来
Data Drives The Future
0512-88869195
客服微信二维码

微信扫码,咨询客服

数 据 驱 动 未 来
Data Drives The Future
XML 地图