变量类别 变量名称 数据类型 含义与说明 记录标识 RowNumber 数值型(整数) 数据集中的行号,仅作为记录索引,无实际预测意义,建模前应移除。 CustomerId 数值型/文本型 客户的唯一标识符。用于精确识别客户,但在通用预测模型中通常不作为特征使用,以避免过拟合。 Surname 文本型 客户的姓氏。通常不直接用于模型,但可能隐含文化或地域信息。在强调隐私的场景下,此字段常被匿名化或移除。 人口统计学特征 Geography 分类型 客户所在的国家/地区。是分析流失模式地域差异的关键因素,不同市场的竞争、法规和服务期望可能不同。 Gender 分类型 客户性别。用于分析流失行为是否存在性别差异。 Age 数值型(整数) 客户年龄。是影响金融服务需求、产品偏好和生命周期价值的核心人口统计变量,通常与流失风险呈非线性关系。 账户与财务状况 CreditScore 数值型(整数) 客户的信用评分。反映客户的信用worthiness和金融健康度,评分低的客户可能因信贷服务受限或费用更高而更易流失。 Balance 数值型(连续) 客户的存款账户余额。是衡量客户价值贡献和关系深度的关键指标。余额极低或异常高的客户都可能具有独特的流失动因。 NumOfProducts 数值型(整数) 客户持有的银行产品数量(如储蓄账户)。持有产品越多,客户粘性越强,流失风险越低,是衡量交叉销售成功度和关系紧密度的强信号。 HasCrCard 二元分类型 客户是否持有该银行的信用卡(1是,0否)。持有信用卡通常意味着更深的金融联系和更高的使用频率。 EstimatedSalary 数值型(连续) 客户的估计年薪。反映客户的收入水平和潜在价值。高收入客户可能对服务更挑剔,低收入客户可能对费用更敏感,两者流失原因不同。 客户互动与忠诚度 Tenure 数值型(整数) 客户成为银行客户的年数。衡量客户生命周期阶段和关系长度。新客户和非常长期的客户可能表现出不同的流失模式。 IsActiveMember 二元分类型 客户是否为活跃会员(1是,0否)。这是一个极强的行为信号,非活跃客户(如长期无交易)是流失的高危群体。 目标变量 Exited 二元分类型 客户是否已流失(1是,0否)。这是所有预测模型的核心目标变量,用于监督学习训练,旨在根据其他特征预测此结果。