【详解】BiLSTM+CRF模型

文章目录

B-Person （人名的开始部分）

I- Person （人名的中间部分）

B-Organization （组织机构的开始部分）

I-Organization （组织机构的中间部分）

O （非实体信息）

x 是包含了 5 个单词的一句话（W₀,W₁,W₂,W₃,W₄）。还有，在句子 x 中 [W₀,W₁] 是人名，[W₃] 是组织机构名称，其他都是 “O”。

BiLSTM 层的输入表示该单词对应各个类别的分数。如 W₀，BiLSTM 节点的输出是 1.5 (B-Person), 0.9 (I-Person), 0.1 (B-Organization), 0.08 (I-Organization) and 0.05 (O)。这些分数将会是 CRF 层的输入。
所有的经 BiLSTM 层输出的分数将作为 CRF 层的输入，类别序列中分数最高的类别就是我们预测的最终结果。

所谓的 BiLSTM，就是 (Bidirectional LSTM) 双向 LSTM. 单向的 LSTM 模型只能捕捉到从前向后传递的信息，而双向的网络可以同时捕捉正向信息和反向信息，使得对文本信息的利用更全面，效果也更好.
在 BiLSTM 网络最终的输出层后面增加了一个线性层，用来将 BiLSTM 产生的隐藏层输出结果投射到具有某种表达标签特征意义的区间，具体如下图所示：

BiLSTM 网络结构
- 设置隐藏层维度的时候，需要将 hidden_size // 2
- 总共有 3 层需要构建，分别是词嵌入层，双向 LSTM 层，全连接线性层
- 在代码层面，双向 LSTM 就是将 nn.LSTM () 中的参数 bidirectional 设置为 True
BiLSTM 网络的代码实现
- 构建类 BiLSTM 的初始化函数
- 添加文本向量化的辅助函数，注意 padding 填充为相同长度的 Tensor
- 要注意 forward 函数中不同张量的形状约定

CRF (全称 Conditional Random Fields), 条件随机场。是给定输入序列的条件下，求解输出序列的条件概率分布模型.
即使没有 CRF 层，我们照样可以训练一个基于 BiLSTM 的命名实体识别模型（因为 BiLSTM 模型的结果是单词对应各类别的分数，我们可以选择分数最高的类别作为预测结果。）

例如 W₀，“B-Person” 的分数最高（1.5），那么我们可以选定 “B-Person” 作为预测结果。同样的，W₁ 是 “I-Person”, W₂ 是 “O”,W₃ 是 “B-Organization” ，W₄ 是 “O”。
但实际情况可能出现下列预测结果

CRF 层可以加入一些约束来保证最终预测结果是有效的（CRF 层可以学习到句子的约束条件）。这些约束可以在训练数据时被 CRF 层自动学习得到。

可能的约束条件有：

句子的开头应该是 “B-” 或 “O”，而不是 “I-”。
“B-label1 I-label2 I-label3…”，在该模式中，类别 1,2,3 应该是同一种实体类别。比如，“B-Person I-Person” 是正确的，而 “B-Person I-Organization” 则是错误的。
“O I-label” 是错误的，命名实体的开头应该是 “B-” 而不是 “I-”。

有了这些有用的约束，错误的预测序列将会大大减少。

1 Emission Score（发射分数 / 状态分数）

发射概率，是指已知当前标签的情况下，对应所出现字符的概率。通俗理解就是当前标签比较可能出现的文字有哪些，及其对应出现的概率.

X_i,_yj 代表状态分数，i 是单词的位置索引，y_j 是类别的索引。根据上表，

2 Transition Score （转移分数）

我们用 t (y_i,y_j) 来表示转移分数。例如，t (B−Person,I−Person)=0.9 表示从类别 B−Person→I−Person 的分数是 0.9。因此，我们有一个所有类别间的转移分数矩阵。

为了使转移分数矩阵更具鲁棒性，我们加上 START 和 END 两类标签。START 代表一个句子的开始（不是句子的第一个单词），END 代表一个句子的结束。

下表是加上 START 和 END 标签的转移分数矩阵。

如上表格所示，转移矩阵已经学习到一些有用的约束条件：

句子的第一个单词应该是 “B-” 或 “O”，而不是 “I”。（从 “START”->“I-Person 或 I-Organization” 的转移分数很低）
“B-label1 I-label2 I-label3…”，在该模式中，类别 1,2,3 应该是同一种实体类别。比如，“B-Person I-Person” 是正确的，而 “B-Person I-Organization” 则是错误的。（“B-Organization” -> “I-Person” 的分数很低）
“O I-label” 是错误的，命名实体的开头应该是 “B-” 而不是 “I-”。