变量名 数据类型 说明 link 字符型 原文在官方网站上的链接地址。主要用于引用溯源和直接访问原文,在纯粹的文本分析模型训练中通常不作为特征使用。 headline 文本型 新闻标题。这是最核心、最凝练的文本特征,通常包含关键实体和核心话题,非常适用于进行快速的文本分类、关键词提取和注意力模型训练。 category 分类型 新闻类别标签。这是监督学习任务中的目标变量,用于多类别文本分类。该字段定义了每篇文章所属的主题(如政治、科技),是模型学习和评估的基准。 short_description 文本型 文章摘要或简短描述。提供了比标题更丰富的上下文信息,包含更多的细节和叙述。与headline结合,可以构成双重粒度的文本输入,用于提升模型对文章整体内容的理解和分类精度。 authors 文本型/分类型 文章作者。可以用于分析不同作者的写作风格或领域偏好。在建模中,可以将其作为分类特征或进行编码,以捕捉潜在的作者风格对文本的影响。 date 日期型 文章发布日期。重要的时间序列元数据,可用于分析新闻话题的时序演变、周期性趋势或特定事件期间的媒体报道焦点,支持时序分析与话题演化研究。