1.1工程概况及测点布置
本文的研究对象是宁波地铁5号线同德路站—石碶站区间的建筑物沉降监测数据。同德路站—石碶站区间采用单圆盾构法施工,区间单圆隧道上行线1184.09 m,下行线1195.882 m。本工程监测范围为3H(H为隧道等效直径)。
本文将对监测点JC11-4的监测数据进行分析。该测点布置位置如图1所示。监测原始数据曲线如图2所示。
1.2使用TimeGAN进行数据扩增
使用LSTM网络进行沉降预测时,样本过少容易造成模型过拟合、降低网络的实用性,所以,需要首先对原始数据进行扩增处理。
对抗生成网络(Generative Adversarial Network, GAN)为人工合成数据提供了有效途径,可以用于原始数据集的扩增处理。本研究使用GAN网络的衍生模型-时间序列对抗神经网络(TimeGAN)进行沉降时序监测数据的扩充。
TimeGAN由四个网络组件构成:嵌入网络(Embedding)、恢复网络(Recovery)、序列生成器(Generator)和序列鉴别器(Discriminator)。这一神经网络的本质是让模型学习真实数据的分布。网络具体训练过程如图3所示。
图1 建筑物测点布置Fig.1 Layout of measuring points of buildings
图2 测点JC11-4的沉降Fig.2 Settlements at measuring point JC11-4
图3 TimeGAN网络数据扩增流程Fig.3 Data amplification in TimeGAN network
使用TimeGAN之前,先对原始建筑物沉降监测数据进行预处理,包括时序处理和归一化处理。归一化采用的是线性函数归一化公式,如下面的式(1)所示:
式(1)中,Xnorm为归一化后的数据,X为建筑物沉降原始输入数据,Xmax和Xmin分别为原始数据集的最大值和最小值。
预处理后的数据如图4所示。可以看出,数据预处理后,建筑物的沉降分布在区间(0,1)。
将预处理后的数据输入TimeGAN神经网络中进行数据扩增,将建筑物沉降数据扩增过程进行可视化,得到图5。图5中,橙色曲线和蓝色曲线分别表示原始沉降监测数据和新生成的数据。
由图 5(a)可以看出,模型迭代 2 次时, TimeGAN神经网络按照建筑物原始沉降数据分布关系开始生成新数据,新生成数据与真实数据分布相差比较大、还没有学习到真实数据的特征。
由图5(b)可以看出,模型迭代150次时,新生成数据在数量上已经与原始建筑物沉降数据相同,但数据分布规律与原始数据分布规律差别比较大、还没有很好学习到真实数据的分布特征。
由图5(c)可以看出,模型迭代500次时,新生成数据分布形式比图5(b)更加接近原始数据, TimeGAN网络已经能够较好地实现扩增。
1.3 数据扩增效果评价
下面从三个方面来评价建筑物沉降新生成时序数据的效果,分别是:t分布随机邻域嵌入可视化(t-SNE)和主成分可视化分析(PCA)、判别分数(Discriminative Score,简称DC)分析、预测分数(Predictive Score,简称PS)分析:
(1)t-SNE和PCA可视化分析。 t-SNE和PCA分析用于数据的降维,可以将时间高维变成二维,从而生成二维空间中的建筑物沉降分布与原始数据分布,有利于直观了解原始数据和新生成数据的相似程度。
图4 原始建筑物沉降数据预处理Fig.4 Preprocessing of original settlement data of buildings
图5 不同迭代次数下网络训练过程的可视化Fig.5 Visualization of network training process under various iterations
原始建筑物沉降时序数据通过TimeGAN神经网络后,新生成数据与原始数据t-SNE与PCA的可视化结果如图6所示。图中,蓝色线(Synthetic)表示新生成的建筑物沉降数据,红色线(Original)表示原始的建筑物沉降数据。
从图6可以看出,经过TimeGAN网络生成的建筑物沉降数据与原始建筑物沉降数据重叠效果较好,说明新生成的数据与原始数据的相似性较好,即TimeGAN神经网络能够较好学习原始时序数据的特征。
(2)DC分析和PS分析。DC用于量化生成数据和原始数据的相似性,DC越小、则生成数据与原始数据就越相似。PS用于保证生成数据的实用性, PS越小,新生成数据继承原始数据的特性就越好。原始建筑物沉降时序数据经过TimeGAN网络后,新生成数据的DC和PS分别为0.18和0.04,说明新生成的建筑物沉降数据与原始建筑物沉降数据相似性强、实用性强,较好继承了建筑物沉降原始时序数据的预测特性,能够较好用于原始数据集的扩充。