基于BiLSTM-CRF的玻璃文物知识点抽取研究

杨 云, 宋清漪, 云馨雨, 史雯倩, 尚梦丹

(1.陕西科技大学 电子信息与人工智能学院, 陕西 西安 710021;

2.中央民族大学 信息工程学院, 北京 100081)

自然语言处理[1](Nature Language Processing,NLP)在中文的诸多领域已取得较好的成果,并在大数据背景下广泛应用于各个任务中,如:机器翻译、情感分析和知识图谱[2]构建等.目前,中国古代玻璃从商代晚期到清代3 000多年间,文物的数字化工作已经取得了很好的成果,但博物馆及考古挖掘保存的大量文物数据信息之间仍无法智能化关联,导致文物研究人员开展文物保护及修复工作有一定的困难.因此,构建玻璃文物知识图谱是研究人员顺利开展文物保护及修复工作的重要需求.充分挖掘文物信息,不仅可以提高文物价值认知的科学性,为文物价值认知及研究提供数据及参考.同时,可与智慧博物馆、文物知识图谱等研究项目产生紧密互动,将价值认知研究成果在博物馆与互联网端进行应用与展示.而构建玻璃文物知识图谱第一步就是抽取出玻璃文物相关知识点,即需要命名实体识别[3](Named Entity Recognition,NER).

在命名实体方面,许多半自动的方法已经被提出,如扈应等[4]提出了一种结合高效预训练词向量和领域特征的神经网络边界组合,但在不同的数据集上低于一般领域中类似任务的性能;
Li等[5]在实体识别方面提出的双向长短时记忆网络结合条件随机场的模型,改善实体边界模糊、分词不准确等问题;
崔琳[6]结合领域词典采用BIO模式标注原始数据,使用Bi-LSTM+CRF模型对原始数据进行实体识别,在少数民族服饰文化语料库上有较好的提取效果;
张娜[7]使用改进的Tri-training模型,基于少量人工标注的三元组种子模板,从文本数据中提取出了文物关系的三元组;
杜悦等[8]基于深度学习模型从先秦典籍中抽取了构成历史事件的实体,并比较了不同规模语料库对不同深度模型的影响.

本文以玻璃文物为研究对象,在分词时需引入玻璃文物名词词典,减少噪声对识别效果的影响,提出BiLSTM-CRF模型结合玻璃文物特征字典的方法,将神经网络抽取出的特征与字典互补,以提高文物知识点抽取效果.

1.1 文本标注

在玻璃文物领域知识图谱构建过程中,命名实体识别需要从文本中抽取出三类实体类型:玻璃文物名称、玻璃文物年代和玻璃文物类别.由于市面中缺少已标注的数据集,本文使用jieba-Python开源的工具包,预先对文本进行分词并标注,使用0表示单字词,1表示第一个字,2表示中间部分.标注方法使用目前主流的BIO标注法,其中B表示实体开头,I表示实体中间部分,O表示非实体,在文本中分别对文物名称、年代和类别使用RELIC、ERA和CLA标签进行标注,以句子“透明蓝玻璃尊通体呈透明浅蓝色,雍正年制……”为例,数据集中实体标注方法如表1所示.

表1 数据集实体标注举例

1.2 特征选取

由于文物领域专有名词较多,分词工具无法将玻璃文物知识点正确分词,为提高命名实体识别的准确率,本文引入自定义的玻璃文物特征词典及停用词词典以减少分词错误,例“透明蓝玻璃尊”,未加入字典时分词情况为透明/v蓝/nr玻璃/n尊/q,引入文物特征字典后可以识别这是一个实体.

通过对描述玻璃文物的文本分析创建特征字典,包括特征词和所属类别,如表2所示.

表2 特征字典举例

1.3 字向量化

在神经网络中,数据的输入格式是向量或矩阵,在训练网络前要将字嵌入[9],即将文本的分词信息向低维向量映射,再将每个字向量拼接得到每个字的表示,以“透明蓝玻璃尊通体……”为例,文本矩阵的一个字的字向量是4,分词信息向量是1,文本的向量表示如图1所示.

图1 文本向量表示

1.4 BiLSTM神经网络

长短时记忆网络[10](Long Short Term Memory,LSTM)是一种特殊的循环神经网络变体,在循环神经网络[11](Recurrent Neural Network,RNN)的基础上处理长期依赖问题并有效处理梯度爆炸和梯度消失问题,LSTM[12]的单元结构如图2所示.

图2 LSTM的单元结构

LSTM就像一个细胞(Cell),每一条水平线传输着一整个向量,从一个节点输出再到另一个节点输入,×、+表示细胞内的运算,分别表示pointwise和向量的和,σ、tanh是矩阵,表示学习到的神经网络层.LSTM用两个门来控制cell的内容:遗忘门和输入门.遗忘门决定上一时刻ct-1有多少保留到当前时刻ct,输入门决定当前时刻网络的输入xt有多少保留到当前时刻ct,最后,用输出门控制ct有多少输出到ht.遗忘门的计算公式为:

ft=sigmoid(Wf·[ht-1,xt]+bf)

(1)

式(1)中:Wf是遗忘门的权重,[ht-1,xt]是指将两个向量连接成一个向量,bf是遗忘门的偏置项.

输入门的计算公式为:

it=sigmoid(Wi·[ht-1,xt]+bi)

(2)

(3)

(4)

接着看输出门的值ot:

ot=sigmoid(Wo·[ht-1,xt]+bo)

(5)

最终得到LSTM的输出ht,由输出门和单元状态共同决定:

ht=ot·tanh(ct)

(6)

然而,LSTM是单向的,只基于上文或下文分析,所以将前向LSTM和后向LSTM加和组成双向长短时记忆网络[13](Bidirectional LSTM,BiLSTM),分别将从左至右和从右至左两个方向拼接成一个长输入序列,再输出概率,最后送入CRF层,如图3所示.

图3 双向长短时记忆网络示意图

1.5 CRF层

CRF层[14]的输入是BiLSTM输出的每一个单词对应各个类别的概率值.假设给定句子x,其标签序列y的概率计算公式为:

(7)

式(7)中:Z(x)是归一化因子,Z(x)、s(x,y)的计算公式为:

Z(x)=∑y′exp(s(x,y′))

(8)

s(x,y)=∑iEmit(xi,yi)+Trans(yi-1,yi)

(9)

式(9)中:Emit()对应LSTM输出概率,Trans()对应转移概率,即CRF转移矩阵对应的数值.

以上述文物标注举例,1.5(B-RELIC)、0.9(I-RELIC)、0.3(B-CLA),类别序列中最高的就是预测结果,如图4所示.同时,在CRF层加入约束机制,CRF层会自动学习,如句子的开头应是B或O,而不能是I.

图4 CRF层结合BiLSTM的预测举例

2.1 玻璃文物语料库

为构建玻璃文物基本信息的语料库[15],本文从中国国家博物馆、陕西历史博物馆、台州博物院和北京故宫博物院等大型国家博物馆网站抽取[16]了583个玻璃文本数据,将这些文本去噪后进行分词并标注,最后将这些数据按8∶1∶1的比例随机划分为训练集、测试集和验证集.

2.2 实验设置

本文的评价指标使用较为常见的三个评价指标:准确率(Precision,P)、召回率(Recall,R)和综合评价指标(F1-Measure,F1).

实验环境为Tensorflow2.1.0[17]并配合Adam优化器进行训练,BiLSTM-CRF+dict模型,即基于玻璃文物特征字典的双向长短时记忆网络的超参数设置如表3所示.

表3 实验参数设置

2.3 基于同规模语料库的不同模型效果分析

本文比较了RNN、RNN-CRF、BiLSTM、LSTM-CRF、BiLSTM-CRF和基于字向量的BiLSTM-CRF+dict模型在玻璃文物数据集中的识别效果,具体如表4所示,绘制折线图如图5所示.

表4 模型比对结果(%)

图5 不同模型效果对比图

由表4可知,基于字向量并加入玻璃文物特征字典的BiLSTM-CRF模型识别效果要优于其他模型,此模型在对文本进行分词时,加入了外部词典,避免产生大量的噪声信息,使模型结合上下文信息有效学习文物特征.观察表中其他结果,还可以发现:

(1)由BiLSTM模型和LSTM-CRF模型比较分析得到,双向的LSTM在序列标注上要优于单向LSTM,因为BiLSTM要同时学习前向和后向的序列特征,学习效果更好.

(2)在深度学习模型上加入CRF层后, RNN-CRF相较于RNN、BiLSTM-CRF相较于BiLSTM,其结果的综合评价指标有明显提升.证明添加CRF后,在针对玻璃文物实体识别的任务上具有一定的优越性.

2.4 模型损失变化

为进一步研究双向神经网络和玻璃文物特征字典对模型训练的影响,比较了LSTM-CRF、BiLSTM-CRF和BiLSTM-CRF+dict三个模型在训练、测试过程中的模型损失与精度变化曲线,如图6所示.

图6 模型训练、测试过程中的模型损失与精度变化曲线

由图6可以看出,双向的长短时记忆网络要优于单向的长短时记忆网络,且加入字典后的模型损失率降低,正确率也有所提高.此模型的精度在训练集上达到96.81%,在测试集上达到90.52%,训练过程与测试过程中模型损失与精度的变化如图7所示.

(a)模型训练、验证过程的精度变化曲线

2.5 不同规模语料的实验结果对比分析

为探究语料库的数据量对各模型的影响,本文将语料库分为1/3、2/3和1三种规模,分别在LSTM-CRF模型、BiLSTM-CRF模型和基于字向量的BiLSTM-CRF+dict模型上进行实验,选用综合评价指标F1作为评价指标,结果如图8所示.

图8 不同规模语料的实验结果对比分析图

从图8可以看出,语料库规模从1/3增长到2/3时,三个模型的综合评价指标明显提升;
当语料库规模较小时,玻璃文物特征字典对模型效果的提升较小;
在三种语料规模上,本文提出的模型要优于LSTM-CRF模型和BiLSTM-CRF模型.

本文提出基于字向量的BiLSTM-CRF模型,同时引入玻璃文物特征字典进行玻璃文物知识点抽取.由于缺少已标注的玻璃文物语料库,本文将文本数据自动分词并人工标注后构建玻璃文物语料库,再对标注后的语料库利用模型训练,充分学习上下文的信息及特征,最后CRF结合语义信息实现对实体的抽取.同时,比较了不同规模语料库对模型的影响.

在后续研究中,将会继续使用模型进行实体间的关系抽取,并将实体抽取的结果和关系抽取的结果整合用于构建玻璃文物知识图谱.同时,随着知识抽取技术的不断发展,如何将自动化抽取的方法应用于文物领域中也是未来的重点探索和研究方向.

猜你喜欢 分词字典语料库 基于语料库的清末民初日源外来词汉化研究外语学刊(2021年1期)2021-11-04分词在英语教学中的妙用校园英语·月末(2021年13期)2021-03-15结巴分词在词云中的应用智富时代(2019年6期)2019-07-24结巴分词在词云中的应用智富时代(2019年6期)2019-07-24字典的由来小学阅读指南·低年级版(2019年11期)2019-07-01运用语料库辅助高中英语写作师道·教研(2017年11期)2017-12-10大头熊的字典小天使·一年级语数英综合(2017年11期)2017-12-05正版字典读者(2016年14期)2016-06-29语料库与译者培养探索改革与开放(2010年6期)2010-06-04聚焦现在完成进行时中学生英语·外语教学与研究(2008年4期)2008-03-18

推荐访问:知识点 抽取 文物