基于自然语言处理的铁路交通事故与关联技术规章条款智能推荐技术研究

王宇嘉,刘 新,贾永刚,保鲁昆,徐利民

(中国铁道科学研究院集团有限公司运输及经济研究所,北京 100081)

铁路交通事故调查是指在铁路事故发生之后,事故调查人员根据相关资料和多方调查情况对所报告的事故原因进行分析判断。根据统计分析,多数铁路交通事故的发生与人员的违章行为有直接或间接的关联关系[1],近年来中国国家铁路集团有限公司(以下简称“国铁集团”)也提出了严格事故定性定责,加强事故内部分析,充分利用信息化技术分析惯性违章行为的要求。而铁路技术规章是铁路职工生产作业的基本依据,因此当事故发生时,及时、准确地对事故进行分析和判断,明确事故违反的技术规章条款,为事故预防提供决策支持,对铁路安全管理工作具有重要意义。自然语言处理技术是人工智能领域中的一个重要研究方向,国内学者在机器翻译、舆情监测、自动摘要、观点提取、文本分类、知识问答等诸多领域对自然语言处理技术进行了研究[2]。因此,有必要借助自然语言处理技术,构建铁路事故与规章关联库,对事故报告等信息进行智能化的自动分析判断,实现人工辅助下事故关联技术规章条款的自动推荐,为提升事故调查分析效率,推动事故调查手段的智能化,准确定位铁路事故发生原因及明确责任划分提供技术支撑。

我国铁路交通事故按照等级由不同的机构负责调查管理。根据《铁路交通事故调查处理规则》(以下简称《事规》)规定,我国铁路交通事故依据造成的人员伤亡、财产经济损失、对运输生产秩序的影响程度等指标划分为特别重大、重大、较大、一般4 个级别[3]。虽然不同等级的事故的调查机构、人员组成、调查期限都不相同,但调查组都需要查明事故发生的经过、原因、伤亡和损失,认定事故性质和责任,以及提出相关建议,并将这些内容形成事故调查报告。

1.1 铁路交通事故调查流程

铁路交通事故调查主要包括以下流程。

(1)成立调查组。有关部门接到事故报告后,根据事故情况,初步判断可能的事故等级,成立事故调查组。

(2)制定调查方案。由事故调查组组织相关成员确定调查人员、调查内容、调查时间安排及其他相关要求等。

(3)现场事故调查。调查组勘察现场,掌握人员伤亡、机车车辆脱轨、设备损坏等情况,保存痕迹和物证,询问事故当事人及相关人员,查阅有关规章制度、技术文件、操作规程、调度命令、作业记录、台账等,查找事故线索及原因,做好调查记录。

(4)事故报告。现场调查完成后,各专业组应按调查组组长的要求,及时提交专业组调查报告。调查组组长组织审议专业组调查报告,并研究形成《铁路交通事故调查报告》(以下简称“事故报告”),对事故进行分析认定,完成对事故的定性定责,制作《铁路交通事故认定书》,经批准后,送达相关单位。

铁路交通事故调查流程如图1所示。

由图1可以看出,经过一系列严密调查后,相关的调查成果均体现在了事故调查报告中。事故报告撰写是事故调查的关键环节之一,是对整个事故调查的总结和事故定性、定责的结果,因此铁路交通事故的分析统计主要围绕事故报告开展。

图1 铁路交通事故调查流程Fig.1 Investigation process of railway traffic accidents

1.2 铁路交通事故报告构成

《事规》中规定,铁路事故报告应包括事故概况、事故伤亡及损失、事故原因、事故责任以及对事故责任者的处理建议、事故防范和整改措施建议、事故有关证明材料等6部分内容。

如果仅仅止步于确定责任者,而不明确其行为违反的具体规章和条款,则一方面可能定责的依据不够充分,无法做到以理服人;
另一方面,也难以有效地从事故中汲取教训,从而采取有针对性的措施预防同类事故的发生。因此,对事故中人员违反的相关技术规章条款进行分析是一项具有重要意义但十分耗费工作量的任务,需要根据事故调查者的经验,初步判断可能违反的技术规章条款,再查阅大量不同的规章相关规定,找到违反的相关条款。如何在复杂的事故信息中分析出事故直接及间接原因,准确找到事故责任人或单位违反的技术规章具体条款内容,是事故报告撰写中的重点及难点。

1.3 铁路交通事故调查分析存在问题

(1)未充分利用和分析历史事故报告数据。根据《事规》规定,事故调查人员需要根据各种相关资料和多方调查情况对所报告事故的原因进行分析判断,必要时还可以借鉴历史上类似事故的调查结论和处理意见。目前需要人工手动去查找历史相似事故,而这一环节受事故调查人员素质的影响较大,部分经验不足或对相关专业及作业组织不熟悉的人员将难以通过自身查询精准找到与所分析的事故相似的历史事故报告。

(2)安全监督管理信息系统与技术规章管理信息系统缺少关联。目前国铁集团建立了统一的安全监督管理信息系统用于管理铁路事故报告[4],还建立了统一的技术规章管理信息系统,实现了对国铁集团、各铁路局集团公司、全路各运输站段3 个层级技术规章的存储、检索及查阅。而在事故分析过程中,对于技术规章管理信息系统的运用仍较少。在铁路安全监督管理信息系统与技术规章管理信息系统间缺少关联,技术规章信息系统无法读取相关事故报告数据,安全监督管理信息系统也无法获取技术规章相关数据。

(3)缺少智能化的铁路事故相关技术规章条款自动推荐技术手段。目前对于事故报告中违反的规章条款确定、参考历史事故报告定责等工作主要由人工完成,耗费了大量的时间及精力,缺乏智能化的事故调查分析辅助决策技术手段。由于铁路交通事故呈现多样性、散发性、不确定性等特征,在事故分析中涉及的铁路专业及相关技术规章数量较多,对事故调查人员及时、准确地进行分析判断提出了较大挑战。

2.1 铁路交通事故与技术规章关联关系

(1)铁路事故发生多与违章违纪有关。搜集2008—2018年间全路发生的铁路交通事故报告,按事故原因可分为横跨线路、违章违纪、治安伤亡、设备故障、自然灾害等5 大类,各类原因引起的事故当中,因铁路职工违章违纪而造成的事故占比最多,违章违纪主要体现在未按规章规定作业、随意横跨线路、不按规定设置防护、不按规章规定行车等。此外,在设备故障引发的事故当中也有部分是因为设备年久失修,或未按规章规定的检修周期和检修标准进行检修而导致的设备故障。因此,铁路事故与技术规章紧密关联。

(2)铁路事故分析中已加入对违反规章的分析。随着近年来国铁集团“敬畏规章”等一系列举措的实施,铁路各专业越来越重视技术规章的管理及运用,在近年来的铁路事故分析中,也常在事故教训中对职工的违章违纪行为进行分析,在事故发生后,相关单位常在第一时间组织研究事故可能违反的规章内容,为事故调查分析提供辅助支撑。

(3)铁路事故的发生可能引起规章制度的制修订。当一定时间段内违反特定技术规章或规章条款的事故数量达到一定程度时,通常存在着2 种可能性,一是技术规章或规章条款的规定不够科学合理或规定不完善;
二是技术规章培训宣贯不到位,致使规章的执行大打折扣。如果是第一种情况,则需要立即组织研究对不合理的规章条款进行修订补充。因此,事故的发生有时也会促使技术规章条款的修订完善。

通过科学合理地构建铁路交通事故报告与技术规章关联库,一是便于在事故分析时查询相关技术规章规定,更高效地分析出事故原因及相关责任,二是可以尽早发现技术规章制修订或贯彻执行过程中可能存在的问题,并及时采取应对措施,使技术规章得到更好的贯彻执行,进而促进铁路运输生产安全和运输效率的提升。

2.2 铁路事故报告及技术规章关键词提取

(1)自然语言处理技术应用需求。为进一步建立铁路事故报告与技术规章间的关联关系,在此引入自然语言处理技术[5]。虽然铁路交通事故描述千差万别,但相同或相似事故所违反的规章和条款,大概率具有相同的指向性,如果能把事故概况中的这些相同或相似的因素提取出来作为事故特征,就能够在事故概况与事故违反的规章条款之间建立一种联系,实现规章条款的智能推荐,而自然语言处理技术恰好具备这一功能,可以在两者之间搭起一座桥梁。应用基于自然语言处理的文本分词及关键词提取技术,其中分词是自然语言处理的基础,是将连续的字序列按照一定的规范重新组合成词序列的过程,分词准确度直接决定了文本分析的质量;
关键词提取是从文本里面将跟文本意义最相关的一些词抽取出来,是最能够反映出文本主题或者意思的词语,而目前铁路交通事故报告的文本描述并不提供关键词,因此通过自然语言处理技术,可以实现对铁路事故报告的分词,从而自动提取出关键词,为建立铁路事故报告与技术规章的关联关系提供基础。

(2)关键词提取算法选择。从算法的角度来看,关键词提取算法主要有2 类。一类是有监督学习算法,即利用训练好的关键词提取分类器,对各个提取出的候选词进行分类,最终将标签为关键词的候选词作为关键词。另一类为无监督学习算法,即先提取出候选词,对各个候选词进行打分,然后输出N(N的大小由用户根据需求情况确定)个分值最高的候选词作为关键词。根据打分的策略不同,有不同的算法,例如TF-IDF,TextRank等算法[6]。

根据事故概况文本描述的特点,选择应用TF-IDF算法进行事故关键词的提取。TF-IDF算法的优点是简单快速,而且容易理解,能够满足大部分的实际需求。但缺点是用词频来衡量一段文字中一个词的重要性不够全面,有时重要的词在文本中出现的频率可能不够高,特别是对于铁路交通事故报告这样专业性较强的文本场景,有时候提取的关键词不能够反映事故的核心,为此,需要在TF-IDF 算法的基础上进行优化,引入自定义关键词权重的方法。

(3)关键词提取算法优化。自定义关键词权重有2 个含义,一是自定义关键词,二是自定义关键词的权重。在利用通用算法提取事故关键词的时候,可能会遗漏掉最能反映事故特征的关键词,这时候可以通过前期的人工整理,从典型事故概况中提取出事故关键词,并根据这些关键词对于事故特征的表征程度,赋予1~100 之间的任意权重。系统在对事故概况进行分析、提取关键词的时候,在应用通用算法的同时,还会考虑关键词的权重,将依算法得到的关键词评分值与人为设置的关键词权重结合起来,经过这样处理后得到的关键词和关键词排序会更能反映事故的特征,也更接近使用者的预期。

2.3 铁路交通事故与技术规章关联库构建

在完成对铁路事故报告关键词提取的基础上,需要借助于同义词/联想词作为事故与技术规章之间的媒介,即找到一个或多个适当的关键词,这些关键词作为事故关键词的同义词或联想词,通过这些同义词/联想词能够在技术规章库中检索到与事故概况相关的规章条款,从而提高规章检索的召回率和准确性。

通过对历史事故报告中事故概况和事故原因部分的分析,分别抽取事故概况和违反的技术规章条款中的关键词,将规章关键词作为事故关键词的同义词或联想词加入关键词库中,从而通过关键词建立铁路事故与技术规章间的关联关系。

根据提出的铁路交通事故关键词提取算法,对搜集的事故报告进行自动提取,对各项关键词进行梳理整合,并对每一项事故关键词在规章中可能相关的词进行联想,形成铁路事故与技术规章关联关键词库,目前已纳入1 726 项关键词汇的关联。铁路事故与技术规章管理关键词库(部分)如表1所示。

如表1所示,关键词关联库包括铁路事故关键词名称、所属专业、关键词词性、技术规章中的同义词/联想词以及推荐权重等信息。其中,推荐权重表示当该关键词出现在事故概况中时被自动推荐给用户的概率大小,权重越大表示该词越可能被推荐给用户,这一权重考虑了关键词与事故原因的关联性,同时依赖专家经验来确认。

表1 铁路事故与技术规章管理关键词库(部分)Tab.1 Key vocabulary of railway accidents and technical regulation management(Part)

3.1 基于关键词关联的技术规章条款及相似案例自动推荐

在完成了铁路交通事故报告和技术规章条款关联库的构建后,可以看出铁路事故概况是通过关键词与规章条款间建立了关联关系。因此,铁路事故关联规章条款和历史相似案例的推荐是基于关键词进行的自动推荐。铁路交通事故关联规章条款及历史事故案例推荐流程如图2所示。

图2 铁路交通事故关联规章条款及历史事故案例推荐流程Fig.2 Recommendation process of railway traffic accidentrelated regulations and previous accident cases

当系统接收到事故概况信息后,自动提取事故概况中的事故关键词,通过事故-规章关联库,将事故关键词转化为相应的规章关键词,通过读取技术规章管理信息系统中技术规章条款的数据,以规章关键词在条款数据中检索相关规章条款后,由前端展示给用户关联条款。同时根据自动提取的事故关键词,在系统中存储的事故报告数据中进行检索,匹配关键词标签相同的历史事故报告,同步为用户展示关联的历史相似事故。

3.2 基于人因分析的技术规章条款自动推荐流程优化

基于关键词关联的技术规章条款及相似案例自动推荐,虽然能够快速地实现事故辅助分析功能,但仍无法满足事故分析的复杂性需求,需要进一步对推荐技术进行优化。因此,引入基于人因分析的技术规章条款自动推荐技术。

人因工程致力于研究人、设备设施及工作环境之间的交互作用,通过促进人在系统中更好地发挥效能,使系统总体性能达到最优。复杂人机系统是指由环境、信息和人员交互的多个子系统构成的系统[7]。铁路交通事故辅助分析系统便是典型的复杂人机协同系统,系统受人因影响主要体现在铁路事故关联条款准确性受分析人员素质影响较大,铁路事故辅助分析系统的用户一般为安监系统及规章管理相关人员,不同的事故分析人员其业务素质差异较大,部分事故分析人员对事故分析流程较为擅长,但由于缺乏成熟的现场工作经验,或对规章条款内容不熟悉,在进行关键词人工调整时,难以找到准确的关联关键词,或无法判断推荐的条款是否准确,从而无法找到准确的推荐条款和历史事故,影响事故分析的结果。因此,以人因分析为基础,探索基于人因工程的技术规章条款及相似案例推荐技术。铁路交通事故关联规章条款及历史事故案例推荐流程优化如图3所示。

图3 铁路交通事故关联规章条款及历史事故案例推荐流程优化Fig.3 Optimization of recommendation process of railway traffic accident-related regulations and previous accident cases

由图3可以看出,在铁路交通事故管理规章条款及历史事故案例推荐流程(图2)的基础上,通过人工分析的方式,手动建立历史事故和违反的相关技术规章间的关联关系,用户每对一项事故进行关联关系分析后,系统都会记录关联结果。在进行新的事故分析时,如通过智能推荐无法找到合适的关联规章条款,则可通过查询历史相似事故分析中违反的相关规章条款,来为本事故关联规章条款提供参考,从而实现事故分析的目的。

3.3 铁路交通事故关联技术规章条款智能推荐技术实现建议

(1)依托技术规章信息系统建立铁路交通事故辅助分析系统。目前全路已建立了统一的技术规章管理信息系统,已完成了各级技术规章文本的录入,具备各级技术规章检索及查阅的功能。因此,依托铁路技术规章管理信息系统,应用本研究提出的铁路交通事故关联技术规章条款智能推荐技术,建立铁路交通事故调查辅助分析系统。用户通过输入事故概况,由系统自动提取事故关键词,通过铁路交通事故与技术规章关联库,实现关联技术规章条款的自动推荐,用户可对推荐的条款进行保存,从而实现事故可能违反的规章条款的查询与分析。

(2)通过机器学习不断提升智能推荐准确性。在辅助系统建立的过程中,可以引入机器学习机制[8],让系统根据用户的人工调整,自动学习推荐结果。系统自动提取的事故关键词如与用户的预期不一致,或不足以真正反映事故的特征时,用户可以对关键词进行人工修改,系统根据修改后的关键词进行技术规章条款的全文检索,用户在检索结果中选取贴合事故实际情况的1 个或多个条款后,系统则可自动记录用户的这些行为,并将事故关键词和用户输入的规章关键词建立关联,自动添加到事故-规章关联库中。通过这种方式,所有用户在事故分析过程中的输入和选择不断地以事故-规章关联关系的形式添加到事故-规章关联库中,随着关联库的不断丰富,其所覆盖的事故类型和事故场景逐步增多,系统推荐规章条款的准确性也会不断提升。

(3)逐步联通铁路安监管理信息系统与技术规章管理信息系统。目前铁路交通事故历史报告存储于铁路安监管理信息系统中,与技术规章管理信息系统缺乏接口及协同运用机制。在建立铁路交通事故辅助分析系统后,可为两系统的联通建立纽带,辅助分析系统运用成熟后,可直接从安监管理信息系统中读取相关事故数据,为开展基于大数据的铁路交通事故分析及关联技术规章条款研究提供技术支撑。

安全是铁路的生命线,目前铁路投入了大量人力、物力和财力于安全理论研究、安全设备研发等,旨在筑起人防、物防、技防相结合的安全防线。铁路交通事故分析作为安全管理的重要一环,需要采用智能化分析手段提升事故分析的科学性、准确性,查找事故可能违反的规章条款,帮助铁路职工从事故中吸取违章教训。通过分析铁路交通事故调查流程特征,挖掘铁路交通事故与技术规章内在关联关系,研究构建了铁路交通事故与技术规章关联库,提出铁路交通事故关联规章条款智能推荐的关键技术及实现途径。铁路技术规章及交通事故调查分析管理部门可根据所提出的技术方法,开发建立铁路交通事故辅助分析系统,不断提升铁路交通事故分析的智能化、信息化,为进一步探索事故背后的违章规律,优化相关技术规章条款等提供技术支撑。

猜你喜欢 规章交通事故条款 性侵未成年人新修订若干争议条款的理解与适用预防青少年犯罪研究(2022年1期)2022-08-15对上下班交通事故工伤认定的思考四川劳动保障(2021年10期)2021-12-02预防交通事故小雪花·成长指南(2020年2期)2020-10-12过度限制地方政府规章重复立法之思考智富时代(2019年9期)2019-11-27过度限制地方政府规章重复立法之思考智富时代(2019年9期)2019-11-27正确审视“纽约假期”条款中国外汇(2019年15期)2019-10-14On Knock-for-Knock Principle:Analysis of SUPPLYTIME 2017 Clause 14(a)中华海洋法学评论(2019年4期)2019-03-06青海省人民政府关于修改和废止部分省政府规章的决定青海政报(2017年22期)2017-04-09统一招投标法规——谈法律与规章的修改中国工程咨询(2017年3期)2017-01-31一起高速交通事故院前急救工作实践与探讨灾害医学与救援(电子版)(2016年4期)2016-03-11

推荐访问:自然语言 交通事故 技术研究