变量类别 变量名称 数据类型 含义与说明 核心标识信息 id 数值型(整数) 电影在本数据集内的唯一标识符。是连接所有信息的主键。 imdb_id 文本型 电影在IMDb网站上的唯一标识符(如tt0133093)。用于链接外部数据库。 title 文本型 电影的通用或国际发行标题。 original_title 文本型 电影的原语言标题。 内容描述信息 overview 文本型 电影的情节摘要或简介。是进行基于内容的推荐或自然语言处理的关键文本字段。 tagline 文本型 电影的宣传标语。 genres 文本型 电影所属的类型列表。是进行类型过滤和基于内容推荐的核心特征,通常需要解析为多值分类变量。 belongs_to_collection 文本型 如果电影属于某个系列(如《星球大战》、《哈利波特》),则包含该系列信息。可用于识别系列电影并分析其关联性。 制作与发行信息 original_language 分类型 电影的原始制作语言的ISO代码(如en)。 spoken_languages 文本型 电影中实际使用的语言列表。 production_companies 文本型 参与制作电影的公司列表。 production_countries 文本型 电影的制作国家/地区列表。可用于分析地域性电影特征。 release_date 日期型 电影的首映日期。是进行时间序列分析、季节性趋势研究的基础。 status 分类型 电影的发布状态(如Released(已上映)、Rumored(传闻中))。 homepage 文本型 电影的官方主页URL。 poster_path 文本型 电影海报图片文件的路径(通常相对于图片服务器)。用于前端展示。 财务与运营指标 budget 数值型(整数) 电影的制作预算(通常以美元计)。是衡量项目规模和商业风险的重要指标。 revenue 数值型(整数) 电影的总票房收入(通常以美元计)。是衡量商业成功与否的核心结果指标。 runtime 数值型(整数) 电影的时长(分钟)。 观众反馈指标 vote_average 数值型(连续) 用户的平均评分(通常为0-10分)。是衡量观众口碑和接受度的直接指标,常用于推荐系统的排序或冷启动。 vote_count 数值型(整数) 参与评分的总人数。与vote_average结合使用,可评估评分的置信度和稳定性(高票数的平均分更可靠)。 popularity 数值型(连续) 由平台计算的电影热度分数。该分数可能综合了浏览量、评分、关注度等多种因素,是反映当前受关注程度的复合指标。 其他标志 adult 布尔型 标识电影是否为成人内容(True/False)。用于内容过滤。 video 布尔型 标识该条目是否为视频(如预告片、花絮)而非正片。通常用于筛选。