(1)由于应急团队不同属性的性质不同,通常具有不同的数量级,若各属性间的水平相差很大时直接用原始属性值进行分析,就会突出数值较高的属性在综合分析中的作用,相对削弱数值水平较低属性的作用。因此,为了保证结果的可靠性,需要对原始属性数据进行标准化处理,再利用标准化的数据进行数据分析。本文研究中的备选应急队员在工作年龄、应急次数、应急集合时间三种属性之间关联性较小,因此采用min-max标准化处理方法,该方法称之为离差标准化,对这三种属性进行数据标准化线性变换,目的是将结果值映射到0到1之间[2],函数公式如下:
式(1)中:xmin为样本数据最小值;xmax为样本数据最大值;x为样本数据。
(2)支持向量机的基本概念:首先通过非线性变换将输入空间变换到一个高维空间,然后在这个新空间中求取最优线性分类面,而这种非线性变换是通过定义适当的内积函数来实现的。支持向量机求得的分类函数形式上类似于一个神经网络,其输出是若干中间层节点的线性组合,而每一个中间层节点对应于输入样本与一个支持向量的内积,因此也被叫做支持向量网络[5-8]。结构如图1所示:
图1 支持向量机概念图Fig.1 Concept diagram of support vector machines
SVM应用于回归拟合分析时,不再是寻找一个最优分类面使得两类样本分开,而是寻找一个最优分类面使得所有训练样本离该最优分类面的误差最小[9],概念图如图2。
图2 回归支持向量机概念图Fig.2 Concept diagram of regression support vector machines
应急团队的学习样本集表示为{(x1,y1),(x2, y 2 ),¼,( xi ,yi )}( xiÎRn为输入变量, yi为与xi对应输出变量),回归问题是指从样本中学习一个函数,然后给定一个xi值,能够预测yi的值,SVR函数公式如下[10-11]:
f ( )x =ωΦ ( x ) +b(2)
式(2)中Φ ( x )为Rn到高维空间的一个非线性变换。确定适当的参数值w和b的值,使回归风险系数最小化,回归风险系数公式如下[10]:
式(3)中:r(x)是损失函数,为提高模型的鲁棒性,引入惩罚因子c>0。
利用Lagrange乘子向量、对偶原理及核函数方法,将SVM的约束问题最终转化得到如下回归函数:
对于任何i=1, 2,¼,I,式中0£ai, ai*£c,且ai´ai*=0为拉格朗日算子;K (x,xi)为核函数,本文选用常用的高斯核函数来构造支持向量机。高斯核函数公式为:
式(5)中s为径向基核带宽的调节参数,结合公式(4)得到支持向量机推荐模型。
式(6)可以看出,支持向量机模型的性能和泛化能力主要取决于参数c和s,常采用试验法来确定参数,但容易陷入局部解,因此考虑引入采用遗传算法来确定参数c和s,遗传算法具有全局最优解的特点,这样能够保证模型的有效性和准确性。