评分向导:将模型字段匹配到数据集字段
为了对活动数据集进行评分,该数据集必须包含对应于模型中的所有预测变量的字段(变量)。 如果模型还包含拆分字段,那么该数据集还必须包含对应于模型中所有拆分字段的字段。
- 缺省情况下,自动匹配活动数据集中任何与模型中的字段具有相同名称和类型的字段。
- 使用下拉列表匹配数据集字段到模型字段。 模型和数据集中每个字段的数据类型必须相同才能匹配字段。
- 在模型中的所有预测变量(以及拆分字段,如果有的话)与活动数据集中的字段匹配之前,您无法继续向导或对活动数据集进行评分。
数据集字段。 下拉列表包含活动数据集中所有字段的名称。 无法选择不匹配相应模型字段数据类型的字段。
模型字段。 模型中使用的字段。
角色。 显示的角色可以是以下角色之一:
- 预测变量。 该字段在模型中用作预测变量。 即,预测变量的值用于“预测”兴趣目标结果的值。
- 拆分。 拆分字段的值用于定义分组,其中每个分组单独评分。 拆分字段值的每个唯一组合有一个单独分组。 (注:拆分仅可用于某些模型。)
- 记录标识。 记录(个案)标识。
测量。 模型中定义的字段的测量级别。 对于测量级别会影响得分的模型,将使用模型中定义的测量级别,而不是活动数据集中定义的测量级别。 有关测量级别的更多信息,请参阅 变量测量级别。
类型。 模型中定义的数据类型。 活动数据集中的数据类型必须匹配模型中的数据类型。 数据类型可以是以下类型之一:
- 字符串。 活动数据集中,数据类型为字符串的字段匹配模型中的字符串数据类型。
- 数值。 活动数据集中,显示格式不是日期或时间格式的数值字段匹配模型中的数值数据类型。 其中包括 F(数值)、Dollar、Dot、Comma、E(科学记数法)和自定义货币格式。 具有 Wkday(一周中的某天)和 Month(一年中的某月)格式的字段也被视为数值,而不是日期。 对于一些模型类型,活动数据集中的日期和时间字段也被视为与模型中的数值数据类型匹配。
- 日期 活动数据集中,显示格式包含日期但不包含时间的数值字段匹配模型中的日期类型。 其中包括 Date (dd-mm-yyyy)、Adate (mm/dd/yyyy)、Edate (dd.mm.yyyy)、Sdate (yyyy/mm/dd) 和 Jdate (dddyyyy)。
- 时间。 活动数据集中,显示格式包含时间但不包含日期的数值字段匹配模型中的时间数据类型。 其中包括 Time (hh:mm:ss) 和 Dtime (dd hh:mm:ss)
- 时间戳记。 活动数据集中,显示格式同时包含日期和时间的数值字段匹配模型中的时间戳数据类型。 这对应于活动数据集中的 Datetime 格式 (dd-mm-yyyy hh:mm:ss)。
注:除了字段名称和类型外,您还应该确保要评分的数据集中的实际数据值的记录方式与用于构建模型的数据集中的数据值相同。 例如,如果模型使用 Income 字段构建,后者将收入划分为四种类别,而活动数据集中的 IncomeCategory 则将收入划分为六种类别或四种不同的类别,因此这些字段实际上彼此并不匹配,结果得分将不可靠。
缺失值
此组选项控制评分过程中遇到的模型中定义的预测变量缺失值的处理。 评分过程中的缺失值指下列值之一:
- 预测变量不包含值。 对于数值字段(变量),预测变量表示系统缺失值。 对于字符串字段,预测变量表示空字符串。
- 在模型中,已将给定预测变量的值定义为用户缺失值。 在活动数据集中(而未在模型中)定义为用户缺失的值在得分过程中并不被视为缺失值。
- 预测变量是分类变量,且其值不是模型中所定义的某个类别。
使用值替换。 对具有缺失值的个案评分时尝试使用值替换。 确定替换缺失值的值的方法取决于预测模型的类型。
- 线性回归和判别模型。 对于线性回归和判别模型中的自变量,如果构建和保存模型时指定了缺失值的平均值替换,那么在评分计算中将使用此平均值代替缺失值,评分过程继续。 如果平均值不可用,那么返回系统缺失值。
- 决策树模型。 对于 CHAID 和穷举 CHAID 模型,将为缺失的拆分变量选择最大的子节点。 最大的子节点是使用学习样本个案的子节点中具有最大总体的子节点。 对于 C&RT 和 QUEST 模型,首先使用替代拆分变量(如果有)。 (替代拆分是使用替代预测变量尽可能匹配原始拆分的拆分。) 如果没有指定替代拆分或者所有替代拆分变量都缺失,那么使用最大的子节点。
- Logistic 回归模型。 对于 Logistic 回归模型中的协变量,如果预测变量的平均值作为保存的模型的一部分包含在其中,那么在评分计算中将使用此平均值代替缺失值,评分过程继续。 如果预测变量是分类变量(例如,Logistic 回归模型中的因子),或者如果平均值不可用,那么返回系统缺失值。
使用系统缺失。 对具有缺失值的个案进行评分时返回系统缺失值。