第 8 章时序与模型融合 on 《从零学AI指南手册》

8.1 TextCNN网络

Mon, 01 Jan 0001 00:00:00 +0000

第 8 章时序与模型融合#

经过第4章和第7章内容的介绍，我们对于深度学习中常见的两种网络结构CNN和RNN已经有了清晰的认识。CNN主要应用于处理在空间位置上具有相互依关系的特征数据，而RNN则主要应用于处理在时间维度上具有前后依赖的特征数据。可尽管如此，我们依旧可以根据CNN或者其与RNN的相应结合体来完成时序数据的特征提取过程。在本章内容中，我们将会介绍多种基于CNN和RNN的变体模型以及相应的应用案例。

8.1 TextCNN网络#

虽然CNN主要用于对输入矩阵相邻空间位置上的信息进行特征编码，但是其同样可以通过多尺度的卷积窗口来刻画时序数据在序列上的特征信息，例如比较经典的TextCNN[1]文本分类模型。TextCNN的核心思想便是基于词的粒度将每个词通过一个固定长度的向量来表示（即词向量，相关内容将在9.2节内容中进行介绍）；然后再将一个句子中所有词的词向量垂直堆叠构成一个$n\times d$的矩阵，其中$n$表示该句中词的个数，$d$表示词向量的维度；最后再采用固定宽度的多尺度卷积核（$m\times d$）进行特征提取并完成后续任务。

8.1.1 TextCNN结构#

TextCNN利用卷积操作对文本进行局部特征提取，通过不同大小的卷积核捕捉不同长度的局部特征，从而识别出文本中的关键信息。在TextCNN中，整个网络模型总体上分为3层，卷积层、池化层和全连接分类层，网络结构如图8-1所示。

图 8-1 TextCNN网络结构图

在图8-1中，最左侧为一个$8\times4$的特征矩阵，其中每一行均为一个4维向量，每个向量表示词表中固定的一个词。基于这样的表示方法，对于任意文本来说我们都可以将其表示成一个固定宽度特征矩阵，并且此时我们可以将其看做是一个单通道的特征图。进一步，TextCNN采用了3个不同窗口长度（分别为3、4、和5）的卷积核进行卷积处理。此时，由于卷积核的宽度同特征图的宽度一致，因此卷积结束后得到的便是一个一维的向量。可以看出，基于这样的卷积操作本质上也可以看作是在对文本的局部序列信息进行特征提取，其长度便依赖于卷积核的窗口长度。

在完成卷积操作完成之后，再通过最大化池化操作对每个特征图进行特征提取，此时的每个通道将会变成一个标量值。最后，再将所有结果拼接起来得到一个向量作为文本的特征表示，并追加一个分类层完成后续的分类任务。虽然TextCNN网络结构看似比较简单，但是在实际运用中往往都能取得较好的结果，并且训练速度快不容易过拟合。

8.1.2 文本分词#

在7.6节内容中我们使用了以单个字为粒度再加上一个词嵌入层的方式来表示文本，接下来我们再来看如何以词为粒度加词嵌入层来表示文本。当然，如果是英文语料的话就不存在字和词的差异了。

所谓分词指的是将一句话以中文语义的角度来对其进行分割，然后得到一个小词元。例如对于如下文本来说

《活着》是余华的小说，描绘了中国农民的苦难与坚韧。通过主人公福贵的生活经历，展现了战乱、饥饿和政治运动对人民的摧残，同时传递了关于家庭、希望和人性的深刻思考。

其分词后的结果为

《/活着/》/是/余华/的/小说/，/描绘/了/中国/农民/的/苦难/与/坚韧/。/通过/主人公/福贵/的/生活/经历/，/展现/了/战乱/、/饥饿/和/政治/运动/对/人民/的/摧残/，/同时/传递/了/关于/家庭/、/希望/和/人性/的/深刻/思考/。

然后再以词为单位进行词频统计构造词表并对文本进行向量化。

在文本处理中，jieba是一款常用的开源分词工具[3]，可以通过命令pip install jieba进行安装。同时，jieba库分别提供了两种分词模式来应对不同场景下的中文分词，下面分别进行介绍。

1. 普通分词模式

普通分词模式指的是按照常规的分词方法，将一个句子分割成由多个词语组成的形式，示例代码如下：

1 import jieba
2 if __name__ == '__main__':
3     sen = "今天天气晴朗，阳光明媚，微风轻拂着脸庞，我独自漫步在河边的小径上。"
4     segs = jieba.cut(sen)
5     result = "/".join(segs)

在上述代码中，第4行便是对原始文本进行分词处理并返回一个迭代器。第5行则是格式化处理后的结果，如下所示。

今天/天气晴朗/，/阳光明媚/，/微风/轻拂/着/脸庞/，/我/独自/漫步/在/河边/的/小径/上/。

2. 全分词模型

虽然通过上述方式可以完成句子在词粒度层面的分割，但是对于有的词语来讲可以有不同的分词方法。此时，可以通过在上面的cut函数中指定全分词模式，即jieba.cut(sen, cut_all=True)来得到所有可能的分词结果。例如在开启全分词模式后，上述分词后的结果为

今天/今天天气/天天/天气/天气晴朗/晴朗/，/阳光/阳光明媚/光明/明媚/，/微风/轻拂/着/脸庞/，/我/独自/漫步/在/河边/的/小径/上/。

在实际运用中可以根据情况来选择不同的模式。当然，jieba除了可以做分词处理之外，还提供了关键词抽取、词性标注和新词发现等功能，有需要的读者可以自行查阅学习。

8.1.3 TextCNN实现#

在清楚TextCNN模型的相关原理后，我们再来看如何借助PyTorch快速实现该模型。以下完整示例代码可以参见Code/Chapter08/C01_TextCNN/TextCNN.py文件。

1. 前向传播

首先需要实现模型的整个前向传播过程。从图8-1可知，整个模型整体分为词嵌入层、卷积层、池化层和全连接4个部分，实现代码如下所示：

 1 class TextCNN(nn.Module):
 2     def __init__(self, vocab_size=2000, embedding_size=512,
 3                  window_size=None, out_channels=2, fc_hidden_size=128, num_classes=10):
 4         super(TextCNN, self).__init__()
 5         if window_size is None:
 6             window_size = [3, 4, 5]
 7         self.vocab_size = vocab_size
 8         self.embedding_size = embedding_size
 9         self.window_size = window_size
10         self.out_channels = out_channels
11         self.fc_hidden_size = fc_hidden_size
12         self.num_classes = num_classes
13         self.token_embedding = nn.Embedding(self.vocab_size, self.embedding_size)
14         self.convs = [nn.Conv2d(1, out_channels, 
15                       kernel_size=(k, embedding_size)) for k in window_size]
16         self.max_pool = nn.AdaptiveMaxPool2d((1, 1))
17         self.classifier = nn.Sequential(
18             nn.Linear(len(self.window_size) * self.out_channels, self.num_classes))

在上述代码中，第5~12行是初始化相关模型超参数。第13行是实例化一个词嵌入层，即一个二维权重矩阵，其中每一行均为词表中每个词对应的唯一向量表示。第14~15行则是根据不同卷积窗口长度实例化多个卷积层。第16行是实例化一个自适应的最大池化层，其输出形状为[1,1]，并且由于池化层没有参数所以多个卷积层可以共享同一个池化层。第17~18行是实例化一个分类层，其输入维度为卷积层的个数乘以每个卷积层输出的特征图通道数。

8.2 TextRNN网络

Mon, 01 Jan 0001 00:00:00 +0000

8.2 TextRNN网络#

在7.2节内容中，我们详细介绍了如何通过RNN模型来完成文本分类任务，且当时使用的是one-hot编码形式来表示原始文本。在接下来的这节内容中，我们将会再次介绍基于RNN结构的文本分类模型TextRNN。准确来说TextRNN并不是一个某一个特定模型的名称，而是一系列以RNN模型为基础所构造的一类模型的总称。

8.2.1 TextRNN结构#

TextRNN模型的主要思想是通过循环神经网络结构将文本数据的每个词或字符作为输入，并在每个时间步骤中更新隐藏状态，以对整个序列进行特征提取。具体而言，TextRNN会先将文本序列通过一个嵌入层将one-hot编码形式的稀疏向量转换为稠密向量（Dense Vector）来表示每个词或字符；然后再将其输入到RNN中进行特征提取；最后再将提取得到的特征进行组合并完成后续的分类任务[1]。对于TextRNN模型，其整体结构如图8-2所示。

图 8-2 TextRNN网络结构图

如图8-2所示，从下往上第1层是嵌入层；第2层的RNN层，既可以是原始RNN也可以是后续的各种变体LSTM、GRU和BiRNN等；第3层则是选取RNN的输出特征，既可以是只取最后一个时刻，也可以是取所有时刻的均值或者求和等；第4层则是最后的一个分类层。

8.2.2 TextRNN实现#

在清楚TextRNN模型的相关原理后，我们再来看如何借助PyTorch快速实现该模型。以下完整示例代码可以参见Code/Chapter08/C02_TextRNN/TextRNN.py文件。

1. 前向传播

首先需要实现模型的整个前向传播过程。从图8-2可知，整个模型整体分为3个大的部分，词嵌入层、循环神经网络层和全连接，实现代码如下所示：

 1 class TextRNN(nn.Module):
 2     def __init__(self, config):
 3         super(TextRNN, self).__init__()
 4         if config.cell_type == 'RNN':
 5             rnn_cell = nn.RNN
 6         elif config.cell_type == 'LSTM':
 7             rnn_cell = nn.LSTM
 8         elif config.cell_type == 'GRU':
 9             rnn_cell = nn.GRU
10         else:
11             raise ValueError("Unrecognized RNN cell type: " + config.cell_type)
12         out_hidden_size = config.hidden_size * (int(config.bidirectional) + 1)
13         self.config = config
14         self.token_embedding = nn.Embedding(config.top_k, config.embedding_size)
15         self.rnn = rnn_cell(config.embedding_size, config.hidden_size, num_layers=config.num_layers,
16                             batch_first=True, bidirectional=config.bidirectional)
17         self.classifier = nn.Sequential(nn.LayerNorm(out_hidden_size),
18                 nn.Linear(out_hidden_size, out_hidden_size),nn.ReLU(inplace=True), 
19                 nn.Dropout(0.5),nn.Linear(out_hidden_size, config.num_classes))

在上述代码中，第2行中config表示一个实例化的配置类对象，通过这样的方式可以更便捷的管理模型参数，具体可参见5.1节内容。第4~11行是根据对应的参数返回相应的循环记忆单元。第12行是计算循环神经网络输出结的维度，即在双向结构中该维度为单向结构的2倍，具体可参见7.5.3节内容。第14行是实例化得到一个词嵌入层。第15~16行是根据对应参数实例化得到循环记忆单元。第17~19行则是由两个全连接构成的分类层。

进一步，整个前向传播计算过程的示例代码如下所示：

 1     def forward(self, x, labels=None):
 2         x = self.token_embedding(x)
 3         x, _ = self.rnn(x) 
 4         if self.config.cat_type == 'last':
 5             x = x[:, -1] 
 6         elif self.config.cat_type == 'mean':
 7             x = torch.mean(x, dim=1)
 8         elif self.config.cat_type == 'sum':
 9             x = torch.sum(x, dim=1)  
10         else:
11             raise ValueError("Unrecognized cat_type: " + self.cat_type)
12         logits = self.classifier(x) 
13         if labels is not None:
14             loss_fct = nn.CrossEntropyLoss(reduction='mean')
15             loss = loss_fct(logits, labels)
16             return loss, logits
17         else:
18             return logits

在上述代码中，第2行是词嵌入层的输出结果，形状为[batch_size, src_len, embedding_size]。第3行是RNN计算后的输出结果，形状为[batch_size, src_len, out_hidden_size]。第4~11行是根据不同的组合方式对循环神经网络的输出结果进行组合，形状为[batch_size, out_hidden_size]。第12行则是最后的分类层，输出结果形状为[batch_size, num_classes]。第13~18行则是根据条件返回对应的处理结果。

8.3 CNN-RNN网络

Mon, 01 Jan 0001 00:00:00 +0000

8.3 CNN-RNN网络#

在前面两节内容中，我们分别介绍了通过CNN和RNN来对文本数据进行特征提取的建模方法，前者是从序列局部的角度来捕捉文本序列前后之间的依赖关系，而后者则是利用了RNN固有的特性来对序列数据进行特征提取。总的来说两者各有优势，在提取特征方面有不同的侧重点，因此把CNN和RNN模型进行组合也成为了一种非常流行的做法[1] [2] [3] [4] [5] [6]。

在本节内容中我们将会详细介绍两种以CNN和RNN为基础模块的CNN-RNN模型，即：①以先CNN再RNN的顺序对时序数据进行特征提取[1] [2]；②以先RNN再CNN的顺序进行[3] [4] [5]。

8.3.1 C-LSTM结构#

从名字也可以看出C-LSTM模型是以先CNN再RNN的顺序对时序数据进行特征提取。C-LSTM模型的核心思想在于先利用CNN局部特征提取的能力来抽取文本中短语粒度的特征表示，然后再利用LSTM对卷积后的特征图进行时序上的语义理解，最后得到整个文本的特征表示[1]。如图8-3所示便是C-LSTM模型对应的网络结构图。

图 8-3 C-LSTM网络结构图

如图8-3所示，最左侧为一个$8\times4$的特征矩阵，其含义同8.1.1节中的一致，这里不再赘述。进一步，C-LSTM模型采用了多卷积核卷积对其进行局部特征提取，这可以看作是短语层面的语义信息。此时得到的特征图有两方面的含义：①对于特征图的每一行（即每次卷积窗口滑动后计算得到的结果）来说它表示的仍旧是具有前后时序关系的序列特征，只是获得的更大粒度的语义信息；②对于特征图的每个通道来说可以看作是同一时刻多个维度的语义信息。因此，C-LSTM模型最后会对卷积后的结果进行重构并作为LSTM的输入进行时序上的特征提取。

除此之外，类似的还有CNN-LSTM模型[2]，其结构整体上与C-LSTM类似，仅仅只是在CNN处理后还加入了一个特定的池化层。

8.3.2 C-LSTM实现#

在清楚C-LSTM模型的相关原理后，我们再来看如何借助PyTorch实现该模型。以下完整示例代码可以参见Code/Chapter08/C03_CLSTM/CLSTM.py文件。

1. 前向传播

首先实现模型的整个前向传播过程。从图8-3可知，整个模型整体分为4个大的部分，词嵌入层、卷积层和循环神经网络层以及后续的分类层，实现代码如下所示：

 1 class CLSTM(nn.Module):
 2     def __init__(self, config):
 3         super(CLSTM, self).__init__()
 4         if config.cell_type == 'RNN':
 5             rnn_cell = nn.RNN
 6         elif config.cell_type == 'LSTM':
 7             rnn_cell = nn.LSTM
 8         elif config.cell_type == 'GRU':
 9             rnn_cell = nn.GRU
10         else:
11             raise ValueError("Unrecognized RNN cell type: " + config.cell_type)
12         out_hidden_size = config.hidden_size * (int(config.bidirectional) + 1)
13         self.config = config
14         self.token_embedding = nn.Embedding(config.vocab_size, config.embedding_size)
15         self.conv = nn.Conv2d(1, config.out_channels,
16                               kernel_size=(config.window_size, config.embedding_size))
17         self.rnn = rnn_cell(config.out_channels, config.hidden_size, config.num_layers,
18                             batch_first=True, bidirectional=config.bidirectional)
19         self.classifier = nn.Sequential(nn.Linear(out_hidden_size, config.num_classes))

在上述代码中，第4~11行是根据对应的参数返回相应的循环记忆单元。第12行是计算循环神经网络输出结的维度，即在双向结构中该维度为单向结构的2倍，具体可参见7.5.3节内容。第14行是实例化得到一个词嵌入层。第15~16行是实例化得到一个卷积层。第17~18行是根据对应参数实例化得到循环记忆单元。第19行则是由一个全连接构成的分类层。

8.4 ConvLSTM网络

Mon, 01 Jan 0001 00:00:00 +0000

8.4 ConvLSTM网络#

在8.3节内容中，我们介绍了几种将CNN和RNN进行结合的时序模型，包括串行的方式将CNN和RNN进行结合、以并行的方式将CNN和RNN进行结合。同时，在这些任务场景中序列样本所拥有的一个共同特点便是对于每个序列中的每个时刻来说，其特征表示均为一个向量。但是在现实情况中，还有一类时序数据是以数据帧的形式而存在，即每一时刻均为一个三维（或二维）矩阵。这样的数据也被称为时空（Spatiotemporal）数据，例如最常见的视频数据。因此，在本节内容中，我们将会介绍另外一种结合CNN和RNN的深度学习模型ConvLSTM来解决这一问题[1]。

8.4.1 ConvLSTM动机#

在气象学领域中，对于如何能够准确地预测未来短时间（如0~6小时）内的降雨情况一直以来就是一个热门的研究方向。通常，研究者会根据实时拍摄得到的雷达回波数据（Radar Echo Data）作为输入序列来预测接下来一段时间内的降雨情况。得益于深度学习的发展，有研究者提出了基于循环神经网络和卷积神经网络的预测模型。尽管通过这样的结合方式也能够建模完成这一预测任务，但是模型并没有充分考虑到时空数据中的空间依赖关系（Spatial Correlation）。

基于这样的动机，施行健等人[1]在2015年提出了一种融合CNN和LSTM的时序预测模型ConvLSTM。ConvLSTM模型的动机是通过将CNN和LSTM结合起来克服传统RNN和CNN各自的局限性。ConvLSTM引入了空间上的卷积操作和时间上的循环操作，同时保留了LSTM中的记忆单元和门控机制，能够捕捉到时间和空间上的特征，考虑到时序数据的长期依赖性和空间结构的局部相关性。因此,ConvLSTM可以有效地用于处理时空数据，例如视频数据、雷达数据等。

8.4.2 ConvLSTM结构#

从整体上看，ConvLSTM的模型结构主要分为两部分：在时序结构上遵循典型的RNN网络结构；在空间结构上遵循CNN的特征提取方式。简单来说，ConvLSTM模型就等价于将LSTM中的所有全连接结构替换为卷积结构，同时采用了基于窥视连接的结构（详见7.4.5节内容）。如图8-5所示便是ConvLSTM的循环记忆单元。

图 8-5 ConvLSTM结构图

如图8-5所示便是ConvLSTM的记忆单元结构图，总体上同LSTM类似包含有4个门结构，因此这部分内容不在赘述参考7.3节内容即可。对于ConvLSTM来说，其唯一变化的地方在于各个门控单元的计算方式，具体计算过程如式(8-1)所示。

$$ \begin{aligned} f_t&=\sigma([h_{t-1},x_t,C_{t-1}]\ast W_f+b_f)\\[2ex] i_t&=\sigma([h_{t-1},x_t,C_{t-1}]\ast W_i+b_i)\\[2ex] \tilde{C_t}&=\tanh([h_{t-1},x_t]\ast W_c+b_c)\\[2ex] C_t&=f_t\odot C_{t-1}\oplus i_t\odot\tilde{C_t}\\[2ex] o_t&=\sigma([h_{t-1},x_t,C_{t}]\ast W_o+b_o)\\[2ex] h_t&=o_t\odot\tanh(C_t) \end{aligned}\tag{8-1} $$

在式(8-1)中，$\ast$ 表示卷积操作，$W_f$、$W_i$、$W_c$和$W_o$均为卷积核，因此ConvLSTM模型的输入将是一个5维张量，即[batch_size,time_step,in_channels,height,width]。由此可知，$x_t$的形状为[batch_size,in_channels,height,width]；$h_t$和$C_t$的形状均为[batch_size,out_channels,height,width]；$[h_{t-1},x_t]$的形状为[batch_size,in_channels+out_channels,height,width]；$[h_{t-1},x_t,C_{t-1}]$的形状为[batch_size,in_channels+out_channels*2,height,width]。

同时，由于循环神经网络可以在时间维度和网络层数两个方向展开，因此在ConvLSTM记忆单元中每次卷积之前都会进行填充，以保证每次卷积后特征图的长和宽不发生改变，所以$f_t$、$i_t$和$o_t$的形状均为[batch_size, out_channels, height, width]。对于ConvLSTM来说，其同样类似于RNN模型，因此也可以根据7.1.4节中的结构来构造网络模型并完成相关下游任务。

8.4.3 ConvLSTM实现#

在清楚ConvLSTM模型的相关原理之后，我们再来看如何借助PyTorch快速实现ConvLSTM模型。由于PyTorch框架中的nn模块并没有实现ConvLSTM模型，因此需要我们自己动手进行实现。以下完整示例代码可以参见Code/Chapter08/C05_ConvLSTM/ConvLSTM.py文件。

1. ConvLSTMCell实现

为了便于实现这里以不带窥视连接的结构进行介绍。首先，需要实现一个单独的ConvLSTM记忆单元的前向传播过程，示例代码如下所示：

 1 class ConvLSTMCell(nn.Module):
 2     def __init__(self, in_channels, out_channels, kernel_size, bias):
 3         super(ConvLSTMCell, self).__init__()
 4         self.in_channels = in_channels
 5         self.out_channels = out_channels
 6         self.kernel_size = kernel_size
 7         self.padding = kernel_size[0] // 2, kernel_size[1] // 2
 8         self.bias = bias
 9         self.conv = nn.Conv2d(in_channels=self.in_channels + self.out_channels,
10 								 out_channels=4 * self.out_channels,kernel_size=self.kernel_size,
11                 padding=self.padding,bias=self.bias)

在上述代码中，第1行中in_channels表示输入特征图的通道数，out_channels表示输出特征图的通道数，kernel_size表示卷积核的窗口大小为一个元组。第7行用于计算填充的数量，以保证每次卷积后特征图的大小不发生变化，其计算规则可见4.3.2节内容；同时，为了提高计算效率，对于ConvLSTM中所有卷积操作可以在一个Conv2d实例中完成，第9~10行中in_channels和out_channels两个参数的传入值便是这一点的体现。

进一步，整个前向传播计算过程的示例代码如下所示：

 1     def forward(self, input_tensor, last_state):
 2         h_last, c_last = last_state
 3         combined_input = torch.cat([input_tensor, h_last], dim=1)
 4         combined_conv = self.conv(combined_input)
 5         cc_i, cc_f, cc_o, cc_g = torch.split(combined_conv, self.out_channels, dim=1)
 6         i = torch.sigmoid(cc_i)
 7         f = torch.sigmoid(cc_f)
 8         o = torch.sigmoid(cc_o)
 9         g = torch.tanh(cc_g)
10         c_next = f * c_last + i * g
11         h_next = o * torch.tanh(c_next)
12         return h_next, c_next
13 
14     def init_hidden(self, batch_size, image_size):
15         height, width = image_size
16         return (torch.zeros(batch_size, self.out_channels, 
17         		height, width, device=self.conv.weight.device),
18                 torch.zeros(batch_size, self.out_channels, 
19                 height, width, device=self.conv.weight.device))

在上述代码中，第1行input_tensor表示当前时刻的输入形状为[batch_size, in_channels, height, width]。第2行last_state表示上一个时刻的输出，包含$h_{t-1}$和$C_{t-1}$两个部分形状均为[batch_size, out_channels, height, width]。第3行表示将$h_{t-1}$和$x_t$进行拼接，形状为[batch_size, in_channels+out_channels, height, width]。第4行为同时计算4个部分的卷积运算。第5行是将卷积运算后的整体结果在dim=1这个维度上按照self.out_channels的大小分割，即分割成4个部分，因为卷积运算后的通道数为4 * self.out_channels。第6~12行则是进行相关状态的计算输出。第14~19行是定义一个方法来实现初始时刻的初始化过程。

8.5 3DCNN网络

Mon, 01 Jan 0001 00:00:00 +0000

8.5 3DCNN网络#

在8.4节内容中，我们详细介绍了一种用于对时空数据进行特征提取的ConvLSTM模型，其有效地结合了RNN和CNN各自的优点对输入数据在时间和空间两个维度进行建模。在接下来的这节内容中将会介绍另外一种拓展自传统卷积网络的3D卷积模型来对时空数据进行特征提取。

8.5.1 3DCNN动机#

在传统的卷积神经网络中，卷积操作可以直接用于对二维图像数据进行特征提取，但是对于类似视频这样的时空数据却不能对其时间维度上的信息进行建模。在时空数据中，原始数据是由一系列连续的帧（二维图像）组成，每一帧内部包含了空间信息，而帧与帧之间还存在时间关系，因此传统的二维CNN只能对单独的帧进行处理而无法捕捉到帧与帧之间的时序特征。

基于这样的动机，姬水旺[1]等人在2014年提出了一种同时能够考虑时序信息的卷积模型（3D Convolutional Neural Network, 3DCNN）。3DCNN的基本结构与传统的CNN类似，由多个卷积层、池化层和全连接层组成，但是3DCNN在卷积操作中使用了3D卷积核，同时在池化操作中同时考虑了时间和空间维度，这使得3DCNN能够捕捉数据中的时空特征并在处理时间序列或空间序列数据时更加有效。

8.5.2 3DCNN结构#

1. 卷积层

在3DCNN中，其核心部分便是其中的三维卷积操作。根据8.4.2节内容可知，时空数据一共包含有4个维度，即长度、宽度、通道数和时序长度。因此，在3DCNN中卷积层对输入数据进行卷积操作时除了像二维卷积一样需要在长度和宽上进行滑动，还需要以固定深度在时序长度这个维度上进行滑动，并在每个位置上与输入数据进行逐元素相乘求和，从而生成输出特征图。

如图8-7所示，从上到下依次为2D卷积对单帧数据、2D卷积对多帧数据和3D卷积对多帧数据的特征提取过程。

图 8-7 2D卷积与3D卷积对比图[2]

在图8-7(a)中，使用卷积核通道数为单个数据帧帧通道数的2D维卷积对单帧数据进行特征提取后得到的仍旧只是一个数据帧；在图8-7(b)中，使用卷积核通道数为单帧通道数乘以数据帧数的2D卷积后得到的也只是一个数据帧；在图8-7(c)中，使用卷积核通道数为$d(d

图8-8 3D卷积计算示例图

如图8-8所示，左侧为原始的输入数据和卷积核，对于输入数据来说一共包含有5帧，其中每一帧中有2个特征通道；右侧为3D卷积计算结果后的结果，一共包含有4帧，每一帧有3个特征通道。由此可知，对于3D卷积来说卷积核可通过长度、宽度、通道数、深度和卷积核个数这个5个维度来进行表示。例如对于图8-8中的示例来说，该卷积核的长度和宽度均为$k$、通道数和深度均为2、卷积核的个数为3（对应的便是输出的3个通道）。

2. 计算示例

在清楚3D卷积的计算原理后我们再通过一个实际的计算示例来体会整个计算过程。现在假定原始输入数据有3帧，其中每一帧有2个特征通道，长宽均为5，即形状为[in_channels, frame_len, height, width]；卷积核个数为2，长宽均为3，深度为2，即形状为[out_channels, in_channels, depth, height, width]。整体相关信息如图8-9所示。

图8-9 3D卷积输入和卷积核示意图

如图8-9所示，左侧便是原始的输入数据帧，其形状为[2,3,5,5]；右侧有为卷积核与偏置，其中卷积核的形状为[2,2,2,3,3]。由此可知，在不进行填充的情况下，3D卷积最终计算完成后特征图一共包含有2帧，每一帧的长宽均为3，特征通道数为2。

进一步，3D卷积的计算过程可以通过图8-10来进行表示。

图8-10 3D卷积计算示意图

如图8-10所示，对于第1个卷积核来说，第1帧的第1个值3的计算过程如式(8-2)所示。

$$ \begin{aligned} &(8\cdot1+2\cdot1+5\cdot1+9\cdot1)+(3\cdot1+7\cdot1+6\cdot1+6\cdot1)+\\[2ex]&(1\cdot1+2\cdot1+2\cdot1+2\cdot1+1\cdot1)+(1\cdot1+5\cdot1+5\cdot1+4\cdot2)-70=3 \end{aligned}\tag{8-2} $$

可以发现，其计算过程同2D卷积类似，即卷积核每个位置上与输入数据进行逐元素相乘求和。

8.6 STResNet网络

Mon, 01 Jan 0001 00:00:00 +0000

8.6 STResNet网络#

在前面几节内容中，我们陆续介绍了多种通过结合CNN和RNN的模型来对时序数据进行建模，并且从第8.4节内容开始还首次引入了基于时空数据相关任务。不管是8.4节中介绍的ConvLSTM模型还是8.5节中引入的3DCNN模型，为了能同时提取时空数据在时间和空间两个维度的特征信息均从模型本身进行了改进。在本节内容中，我们将会介绍一种通过改进任务建模方式而仅依靠2DCNN来进行时空数据特征提取的模型，并同时介绍如何对多个子模块的输出结果进行融合。

8.6.1 STResNet动机#

尽管已有的时序模型例如3DCNN或者是ConvLSTM也能够用于提取时空数据在时间和空间两个维度上的特征信息，但是在流量预测这个场景中却不能有效得捕捉到在时间维度上的周期或者是趋势信息。例如在交通流量这一场景中，传统的时序模型只能提取到时空数据在紧邻若干时间内容的时序信息，但显然在这个场景中交通流量还具有周期规律或者趋势性。

通常来说，交通流量数据在相邻时刻间、连续多天的同一时间段以及在长期趋势上都具有一定的规律性。同时，在这一场景中当天是否为节假日也会对交通流量的预测结果产生极大的影响。

图 8-13 交通流量数据趋势图

如图8-13所示，左图展示了以周为单位节假日和非节假日的流量变化图；右图展示了以周为单位不同时间段的流量变化趋势。从图8-13中的结果可以看出，不管在哪种情况下流量数据都具有一定的周期或者规律性。

基于这样的动机，郑宇[1]等人在2017年提出了一种能够同时提取时空数据在邻近性（Closeness )、周期性（Period）和趋势性（Trend）上的时序特征，并同时考虑到节假日及天气状况等额外信息的时空模型（Spatio Temporal ResNet, STResNet）。该模型以残差模块为基础，通过构建不同的子模块来对不同的采样数据进行特征提取，然后再将各个模块的结果进行融合以实现上述目的。

8.6.2 任务背景#

1. 任务介绍

交通流量（Traffic Flow）预测任务是指使用历史数据和其他相关信息来预测特定区域或道路上未来的交通流量情况。它的目标是估计未来某一时间段内的车辆数量、速度和拥堵状况等交通指标，并且通常可以通过交通传感器、视频监控、GPS设备、移动应用程序等方式获取交通流量原始数据。在论文[1]中，作者使用了GPS原始数据来构建对应的数据集并用于模型训练。

图 8-14 网格划分及流量图

如图8-14（左）所示，将整个城市以经纬度划分为大小为$32\times32$的方格，然后再根据GPS轨迹以半小时为间隔统计得到每个格子中的流入流出量并看做是两个通道，这样便得到了整个城市各个区域在每个时刻的流量分布情况。进一步，图8-14（右）便是某一时刻的流入交通流量分布情况。经过这样的处理，我们便得到了一系列具有时序关系的图片数据，而任务的目的便是将前$T$个时间片（时刻）的流量作为输入，然后预测第$T+1$时刻的流入流出流量。

2. 样本采样

为了使得STResNet模型具备提取时空数据在时间维度上的近邻性、周期性和趋势性，作者以不同的时间间隔对原始数据进行了采样，然后再将这3部分采样得到的数据输入到3个由残差网络构建的子模型中进行空间上的特征提取，并将三部分的输出融合作为整体的特征表示。具体采样方式如图8-15所示。

图 8-15 数据采样图

如图8-15所示便是原始构建完成的流量数据，每个时间片的流量情况用一个形状为[2,32,32]的矩阵来进行表示。例如以预测时刻片$t_i$的流量为例，可以取$t_i$的前3个时间片$t_{i-1},t_{i-2},t_{i-3}$来模拟邻近性、取$t_{i}$前一天同时刻的时间片$t_j$来模拟周期性、取$t_i$前一周同时刻的时间片$t_k$来模拟趋势性，并将这3部分作为一个样本同时输入到3个子模块中。最后，再将窗口向右滑动一个时间片来构建下一个样，即$t_i,t_{i-1},t_{i-2}$作为近邻性的输入、$t_{j+1}$作为周期性的输入、$t_{k+1}$作为趋势性的输入，然后预测第$t_{i+1}$时刻的交通流量。当然，这3部分的采样方法以及连续时间片的长度都可以作为超参数进行调整，详见第8.6.4节代码实现。

同时，为了考虑到其它额外因素对最终预测结果的影响，因此作者：①使用了一个8维向量来表示当天是否为工作日，其中前7个维度为独热编码表示当天是星期几，第8个维度表示当天是否为工作日；②使用了一个维度来表示当天是否为节假日；③使用了一个19维向量来表示天气状况，其中前17个维度同样也为独热编码用于表示其中一种天气情况，最后两个维度则表示风速和温度。最终，用这个28维向量来表示除了流量数据之外的额外因素。

8.6.3 STResNet结构#

1. 整体结构

在介绍完任务背景之后接下来开始介绍STResNet模型的原理。STResNet模型整体上可以分为4个部分，其中前3个部分以不同间隔采样的流量数据作为输入通过3个深度残差网络子模块来提取时空数据在时间维度和空间维度上的特征信息，第4个部分则是一个浅层的全连接网络用于考虑节假日和天气等因素对预测结果的影响。整体结构如图8-16所示。

图 8-16 STResNet网络结构图

如图8-16所示，右侧部分3个相同的结构便是用于提取时刻数据特征的深度残差网络模块，从右至左依次用于对邻近性、周期性和趋势性采样数据在空间上特征提取，然后再将这3部分的结果融合得到流量数据在时间上的特征信息，从而得到$X_{\text{Res}}$来表征整体流量数据的时空特征信息。左侧部分则是用于处理天气等额外信息对预测结果的影响。最终，将两部分的结果相加经过$\tanh$非线性变换后便得到了整个模型的预测输出。

2. 残差模块

深度残差模块主要由多个残差单元所构成，并且首尾各插入了一个单独的卷积层来调整特征图的通道数。对于每一个残差单元来说，其由两个卷积层所构成并且还加入了批归一化层，如图8-17所示。

图 8-17 残差单元结构图

如图8-17所示便是STResNet模型中的残差单元。在整个残差模块中，卷积核的大小均是$3\times3$，且除了Conv2之外所有卷积层的卷积核个数均为64，Conv2的卷积核个数则为2，因为预测输出包含两个通道。

3. 模型融合

对于每个残差模块来说，其输出的结果均为一个形状为[2,32,32]的特征图，因此作者采用了式(8-4)所示的方式进行融合

$$ X_{\text{Res}}=W_c\odot X_c+W_p\odot X_p+W_q\odot X_q\tag{8-5} $$

其中$X_c$、$X_p$和$X_q$分别为3个残差模块的输出结果，$W_c$、$W_p$和$W_q$为3个可学习的权重矩阵形状均为[2,32,32]，$\odot$表示按位乘。

在对外部因素进行处理时使用了两个全连接层，由于这部分原始输入整体上是由独热编码构成，所以第1个全连接层还可以近似看成一个嵌入层。为了匹配最后的输出形状，在第2个全连接层中权重参数的维度则必须为$2\times32\times32$，然后再将输出$X_{\text{Ext}}$变形为[2,32,32]并直接与$X_{\text{Res}}$按位相加得到融合后的结果。最后，为了使得模型能够快速收敛作者还使用了$\tanh$非线性变换，这也就意味着输入模型的交通流量数据需要先做$[-1,1]$的标准化，然后在实际推理过程中再将预测结果还原，计算过程如式(8-6)所示。

$$ \begin{aligned} y=2\cdot\frac{x-\min}{\max-\min}-1 \end{aligned}\tag{8-6} $$

对于不同模块间输出结果的融合一般常见的有：①在某个维度进行拼接；②直接以按位加的方式进行处理；③先以按位乘的方式作用一个可学习的权重参数再进行按位加处理；④先以矩阵乘法的方式将不同模块的输出变换到同一个维度再按位加处理。通常来说，先作用一个可学习参数再进行按位加是一个比较好的选择。

第 8 章 时序与模型融合 on 《从零学AI指南手册》

8.1 TextCNN网络

第 8 章 时序与模型融合#

8.1 TextCNN网络#

8.1.1 TextCNN结构#

8.1.2 文本分词#

8.1.3 TextCNN实现#

8.2 TextRNN网络

8.2 TextRNN网络#

8.2.1 TextRNN结构#

8.2.2 TextRNN实现#

8.3 CNN-RNN网络

8.3 CNN-RNN网络#

8.3.1 C-LSTM结构#

8.3.2 C-LSTM实现#

8.4 ConvLSTM网络

8.4 ConvLSTM网络#

8.4.1 ConvLSTM动机#

8.4.2 ConvLSTM结构#

8.4.3 ConvLSTM实现#

8.5 3DCNN网络

8.5 3DCNN网络#

8.5.1 3DCNN动机#

8.5.2 3DCNN结构#

8.6 STResNet网络

8.6 STResNet网络#

8.6.1 STResNet动机#

8.6.2 任务背景#

8.6.3 STResNet结构#

第 8 章时序与模型融合 on 《从零学AI指南手册》

第 8 章时序与模型融合#