变量名 数据类型 说明 year 数值型 奖项颁发的年份。时间序列分析、趋势研究的基础变量。 category 分类型 奖项类别,包括:Physics, Chemistry, Physiology or Medicine, Literature, Peace, Economic Sciences。核心分组变量,用于学科间比较。 prize 字符型 通常指奖项的完整名称,或与category含义相近。 motivation 文本型 核心文本变量。 诺贝尔委员会公布的官方获奖理由引文。是进行文本挖掘、理解奖项价值导向和历史语境的关键材料。 prize_share 字符型 奖项分享份额(如 “1/1”, “1/2”, “1/3”)。用于分析获奖模式从单人向多人合作的演变趋势。 laureate_id 数值型/字符型 获奖者(个人或组织)的唯一标识符。用于精确链接和去重。 laureate_type 分类型 获奖者类型:Individual(个人)或 Organization(组织,多见于和平奖)。是过滤和分析组织获奖记录的关键。 full_name 字符型 获奖个人或组织的全名。 birth_date 日期型 获奖个人的出生日期。用于计算获奖年龄等衍生变量。 birth_city 字符型 获奖个人的出生城市。 birth_country 字符型 获奖个人的出生国家(基于出生时的历史疆界)。 sex 分类型 获奖个人的性别(如 male, female)。是分析奖项性别多样性与代表性的核心变量。 organization_name 文本型 获奖者获奖时所隶属的机构名称(大学、研究所等)。用于评估科研机构的产出与影响力。 organization_city 字符型 上述机构所在城市。 organization_country 字符型 上述机构所在国家。与birth_country结合可分析“人才流动”。 death_date 日期型 获奖个人的逝世日期(若已逝世)。 death_city 字符型 获奖个人的逝世城市。 death_country 字符型 获奖个人的逝世所在国。 usa_born_winner 布尔型/分类型 标识获奖者是否在美国出生(例如 TRUE/FALSE)。用于专门分析美国的人才贡献和吸引力。 decade 分类型/数值型 将颁奖年份归类到所属的十年区间(如 “1900s”, “1910s”)。极大简化了以十年为维度的长期趋势分析。 female 布尔型/数值型 标识获奖者是否为女性(通常 1/TRUE 表示女性,0/FALSE 表示男性)。是sex变量的数值化版本,便于直接进行数学计算和建模。 age 数值型 核心分析变量。 获奖者在获奖时的年龄(通常由 year 和 birth_date 计算得出)。用于研究创造力高峰、学科差异等。 age_group 分类型 根据age划分的年龄段分组。便于进行代际或人生阶段对比分析。