达观数据与同济大学联合共建的“知识图谱与语义计算联合实验室”,近期发布了围绕新冠肺炎的多跳问答数据集和智能问答系统,该数据集基于COVID-19的七个方面(即百科、防控、物资、诊疗、健康、流行病、英雄)进行数据集梳理并进一步生成1跳(1-hop)、2跳(2-hop)、跳(-hop)的问答数据集,智能问答的主题涉及病理、症状、药物等相关的问题。其中论文成果《COKG-QA:Multi-hopQuestionAnsweringoverCOVID-19KnowledgeGraphs》发表于期刊《DataIntelligence》。
图1《DataIntelligence》及发表论文的部分技术展示
主要研究贡献如下:
很少存在针对COVID-19管理的全面的KGQA数据集,尤其是缺乏针对多跳问题的数据集。受益于OpenKG-COVID19,我们推导出了一个大型多跳中文COVID-19KGQA数据集COKG-DATA。它包含丰富的知识,为构建优质的问答系统提供了重要基础。
引入COKG-QA来证明在多跳KGQA任务中嵌入投影机制和模式信息的重要性。更准确地说,通过投影方法将来自不同空间的实体、模式和问题的嵌入转移到一个共同的空间中,以对齐重要特征。此外,实体嵌入与其类型嵌入相结合,以预测指定类型的答案。通过实验证明了COKG-QA是非常有效的,并且对于进一步推广到新领域知识也是值得借鉴的。
为了满足人们对COVID-19咨询服务的需求,基于COKG-QA开发了一个用户友好的交互式应用系统。该系统不仅提供准确和可解释的问题答案,而且易于使用,并具有智能提示和建议功能。
新冠肺炎多跳问答数据集COKG-DATA
我们根据OpenKG推出的OpenKG-COVID19的七个子KG(即百科、防控、物资、诊疗、流行病、英雄)来组织COKG-DATA,人们每天更容易问到这些子KG中的信息。COKG-DATA是一个新的具有挑战性的问答基准,包含有关疾病、症状、药物等相关的单跳问题和多跳问题。基于庞大而多样的COKG-DATA数据集,结合多跳KGQA技术,可以满足人们在大流行期间的复杂查询需求。我们花费大量时间基于OpenKG-COVID19清理数据并收集多跳问题。
01七大子KG
百科KG,让我们对SARS-CoV-2和COVID-19有个大致了解,以及相关的病*和疾病信息。
防控KG,为各地个人、团体提供*府发布的预防指南。
物资KG,围绕疫情期间的物资供应情况展开,涵盖日常防护用品、医疗器械、药品等。
诊疗KG和健康KG是互补的,以利用关于各种疾病、药物、症状、医院的COVID-19相关知识。
流行病KG,运用流行病学的一般技术,研究疾病的分布及影响因素,探究疾病的成因,阐明流行病的规律,以有效地控制和根除疾病。
英雄KG,以新冠病*专家为核心延展至履历、成果、事件、战役等各类概念。
02数据清洗
为了确保QA数据集的质量,我们清理了OpenKG-COVID19中的一些异常情况的数据,并删除了对QA来说不实用的三元组,包括一些三元组包含空字符串、标点实体或无用数字;一些三元组组成的比较奇怪的问题,例如,?医院的医生,在医院工作?;一些三元组中的头实体与尾实体相同的问题,例如具有“别名”关系的三元组。此外,OpenKG-COVID19中还存在包括对称性和反转在内的关系模式。我们为OpenKG-COVID19的这些关系模式扩展了三元组。经过数据清洗和关系扩展后,知识图谱数据集包含个实体、个关系和个三元组。
0数据构造
我们利用OpenKG-COVID19的选定子图中的事实三元组作为1-hop数据。此外,我们手动为2-hop问题设计了47个关系,为-hop问题设计了2个关系,其中组合的关系必须合理自然。具体来说,在2-hop关系中,前关系的范围必须与后关系的域相同。例如,“selecteddrug”关系的范围是“drug”,必须与2-hop关系“SelecteddrugUsageanddosage”中的“usageanddosage”域一致。相同的规则适用于-hop关系收集过程。与多跳数据集MetaQA类似,我们使用Helsinki-NLPOpus-MT项目中的神经翻译模型以引入具有相同含义的更多样化和自然的陈述。利用Opus-mt-zh-en模型将句子从中文翻译成英文,然后使用opus-mt-zh-en将句子翻译回中文。此外,为了从顶层创建一个大规模的统一知识库,完成了实体对齐和关系对齐,以消除不一致问题。
04校验数据
为了确保COKG-DATA数据及中的问题相对时自然且有意义,我们招募了四名志愿者来检查数据集的质量,他们的研究领域均为知识图谱和问答方向。经过清理后的OpenKG-COVID19数据,按照关系对问题进行排序,然后成比例的随机抽取问题样本。这四名志愿者被要求用三个选项对抽样问题进行评分:1表示奇怪;2表示自然;表示有意义。我们通过这个人工评分过程,删除或修改了奇怪的问答对,对COKG-DATA进行了四次优化。最后一轮的采样数为,志愿者的平均得分为2.8,证明了COKG-DATA是高质量的。
05数据集统计
COKG-DATA每个跳数问题的最终统计结果如表1所示。COKG-DATA将会保持与OpenKG-COVID19的同步更新,为用户提供更充分的知识。表1COKG-DATA统计数据
新冠肺炎多跳问答技术COKG-QA
IRQAKGQA
在COVID-19相关信息的获取上,基于COVID-19知识的问答系统作为一种便捷的交互方式受到越来越多的人的欢迎。COVID-19QA现有两种范式:信息检索问答(InformationRetrievalQuestionAnswering,IRQA)和知识图谱问答(KnowledgeGraphQuestionAnswering,KGQA)。1.COVID-19IRQA
COVID-19IRQA系统基于文本问答对,通过计算数据集中提出的问题和问题/答案之间的相似性来获得答案,如WULAI-QA、CAiRE-COVID、COVIDASK。IRQA系统可以自然地回答人们经常提出的简单问题。WULAI-QA(WebUnderstandingandLearningwithAI,WULAI)是一个动态的基于文档的问答系统,图2是其整体系统架构图。
图2WULAI-QA整体架构图
WULAI-QA主要有四部分构成:
特征工程(FeatureEngineering)部分可以使用自定义过滤器和多种强大的特征来快速过滤不相关的文档;
检索器(Retriever)部分可以分别对问题??和文档??进行编码,并计算问题与过滤后的文档集中每个文档的相似度分数??(??
??)。然后选择TOP(??)个文档作为候选文档;
阅读器(Reader)部分将问题??和文档??连接在一起,并以概率??(??
??,??)从文本中抽取答案??;
用户反馈(UserFeedback)部分包括三部分数据:正确答案、相关文档和满意度分数。其中正确答案和相关文档的注释可以更新阅读器和检索器模型,而满意度分数用于更新检索器模型。为了适应COVID-19相关信息的快速扩展,WULAI-QA通过合并稳健和定制的特征来过滤掉不相关的文档。此外,将用户反馈输入到到检索器模型和阅读器模型中,以提高在线部署期间的性能。
图CAiRE-COVID系统架构图
CAiRE-COVID(CenterforArtificialIntelligenceResearch,CAiRE)是香港科技大学开发的一个实时QA和多文档摘要系统,旨在通过回答社区的高优先级问题并总结与问题相关的重要信息,以应对在COVID-19上发表的大量科学文章的挖掘挑战。
其架构图如图所示,由三个主要模块组成:
文档检索器(DocementRetriever)
相关片段选择器(RelevantSnippetSelector)
以查询为中心的多文档摘要器(Query-focusedMulti-DocumentSummarizer)
它将信息抽取与最先进的QA和以查询为中心的多文档摘要技术相结合,在给定查询的情况下从现有文献中查找和高亮显示检索到的片段。同时还提出了以查询为中心的抽象和提取多文档摘要方法,以提供与问题相关的更多相关信息。
图4COVIDASK整体过程
COVIDASK一个结合了生物医学文本挖掘和QA技术来实时提供问题答案的QA系统,利用有监督和无监督的方法使用DENSPI和BEST提供信息丰富的答案。图4是其整体流程图,首先预先索引了CORD-19中包含的研究论文中的所有短语,并使用它们来构建DENSPI模型,还使用并高亮显示了PubMed中的生物医学命名实体来构建BEST。
2.COVID-19KGQA
在KGQA方面目前已经有诸多研究成果,主要包括三种类型:基于逻辑的方法、基于路径的方法和基于嵌入的方法。
1)基于逻辑的方法
该方法由于具有高精度和可解释性强的优点而被广泛讨论。GQE(GraphQueryEmbedding)、Query2Box、BETAE将查询表示为有向无环计算图,以生成逻辑形式的查询嵌入。
GQE是一种基于嵌入的框架,可以有效地预测不完整知识图谱上的联合查询问题。GQE背后的关键思想是将图节点嵌入到低维空间中,并将逻辑运算符表示为该嵌入空间中学习的几何操作(例如,平移、旋转)。经过训练后,可以使用模型来预测哪些节点可能满足任何有效的联合查询,即使查询涉及的未观察到的边。而且这个预测是非常高校的,时间复杂度与查询中的边数成线性关系,并且与输入网络的大小成常量。
图5GQE框架概览
如图5所示,GQE过程是,给定一个输入查询q,根据它的DAG结构表示这个查询,然后使用左侧的算法生成基于这个DAG的查询的嵌入。左侧的算法从查询锚节点的嵌入开始,迭代应用几何运算P和I生成与查询对应的嵌入q。最后,可以使用生成的查询嵌入来预测节点满足查询的可能性,例如,通过嵌入空间中的最近邻搜索。
图6Query2Box推理流程
Query2Box也是一个基于嵌入的框架,用于在大规模和不完整的知识图谱中使用∧、∨和?运算符对任意查询进行推理。如图6是QueryBox的推理流程,(A)中,对于给定的联合查询语句“WheredidCanadiancitizenswithTuringAwardgraduate?”,解析后使用依赖图进行表示;(B)中是计算图的示例,其指定了为(A)中的查询语句获取一组答案的推理过程。(C)中是知识图谱空间的示例,其中绿色节点(实体)表示查询语句的答案。粗体箭头表示与(A)中的查询图匹配的子图。D)中,KG的节点可以嵌入到向量空间中。然后根据计算图(B)获得查询嵌入的执行操作:从两个节点TuringAward和Canada开始,应用Win和Citizen投影运算符,然后是交集运算符(表示为*色和橙色的阴影交集框)和另一个投影操作符,得到查询的最终嵌入,是一个绿色框,查询的答案是框内的实体。
图7BETAE回答一阶逻辑查询的过程
BETAE是一种概率嵌入框架,用于回答KG上的任意一阶逻辑(first-orderlogic,FOL)查询,也是第一个可以处理一整套FOL运算的方法,涵盖合取(∧)、析取(∨)和取反(?)操作。图8显示了查询语句“给定查询语句“ListthepresidentsofEuropeancountriesthathaveneverheldtheWorldCup”处理过程。该查询可以表示为三个术语的结合:(1)“位于(欧洲,V)”,查找所有欧洲国家;(2)“?Held(WorldCup,V)”,查找所有从未举办过世界杯的国家;()“总统(V,V?)”,它找到给定国家的总统。为了回答这个查询语句,首先定位实体“Europe”,然后通过关系“Located”遍历KG以识别一组欧洲国家。实体“WorldCup”也需要类似的操作来获取主办世界杯的国家。然后需要对第二组进行补充,以确定从未举办过世界杯的国家,并将补充与欧洲国家组相交。最后一步是将关系“President”应用于生成的交集,以找到国家总统列表,从而给出查询答案。
2)基于路径的方法
该方法将问题中的主题实体沿着多个KG三元组搜索以找到答案实体或关系。其中很重要的是路径排序算法(PathRankingAlgorithm,PRA),PRA旨在通过直接在KG上自动学习语义推理规则来提高KG的覆盖率。PRA使用基于重新启动的推理机制的随机游走来执行多个有界深度优先搜索过程以查找关系路径。结合基于弹性网络的学习,PRA然后使用监督学习选择更合理的路径。然而,PRA在完全离散的空间中运行,这使得评估和比较KG中的相似实体和关系变得困难。为了缓解PRA的搜索空间大的问题,除了DeepPath、NSM的方法之外,还有其它一些研究工作围绕将KG推理视为顺序路径决策过程来展开。
DeepPath是一种KG推理的强化学习(ReinforcementLearning,RL)方法,使用基于翻译的知识嵌入方法来编码RL代理的连续状态,代理通过对关系进行采样,通过增量步骤的方式扩展其路径。为了更好地指导RL代理学习关系路径,DeepPath使用策略梯度训练和一个新颖的奖励函数,以提升准确性、多样性和效率。
NSM(NeuralStateMachine)采用师生网络来学习中间监督信号,主要思想是训练一个专注于多跳KBQA任务本身的学生网络,同时训练另一个教师网络在中间推理步骤提供(伪)监督信号(即我们任务中的推断实体分布)改善学生网络。NSM主要由指令部分和推理部分组成。指令组件将指令向量发送到推理组件,而推理组件推断实体分布并学习实体表示。
)基于嵌入的方法
该方法通过评估问题嵌入和候选答案嵌入之间的相似性以获得正确答案。比较应用广泛的是EmbedKGQA方法,通过预训练模型表示问题,并通过ComplEx表示知识图嵌入,并通过ComplEx的评分函数选择答案。
图8EmbedKGQA概览
如图8所示,EmbedKGQA具有三个模块:
KG嵌入模块学习输入KG中所有实体的嵌入;
问题嵌入模块学习问题的嵌入;
答案选择模块通过结合问题和关系相似性分数来选择最终答案。
EmbedKGQA使用嵌入使其更有效地处理KG稀疏性。此外,由于EmbedKGQA将所有实体都视为候选答案,因此它不会受到现有多跳KGQA方法的有限邻域无法访问问题的影响。另外像关系图卷积网络方法聚合KG中特定多重关系的嵌入来预测答案。当然,还有一些基于嵌入方法结合文本语料库的研究也备受