您当前位置：
自闭症康复
基于医学知识图谱的慢性病在线医疗社区分面检索研究

论文分类：

基于医学知识图谱的慢性病在线医疗社区分面检索研究

2022-08-03 11:45:48
2W次

来源：情报理论与实践第44卷2021年第l期

作者：

摘要：知识图谱以自身强大的语义关联能力与信息组织能力，一方面能够有效实现概念推理，并将概念间的关联关系以可视化形式呈现给用户，为其提供更为结构化、系统化的知识。另一方面，将知识图谱技术应用于分面检索中，能够将事物从不同的方面进行拆解，为用户提供与上下文相关的检索结果，在检索过程中用户通过自由切换导航页面，可从多个维度对信息及其关联关系进行挖掘，从而获取所需信息。

关键词：孤独性障碍,ASD,发育迟缓,郭延庆,华中师范大学

翟姗姗,潘英增,胡畔,郑路

本文为华中师范大学中央高校基本科研业务费资助项目“非遗知识图谱构建及其在数字人文领域中的应用研究”（项目编号:CCNU20A06027）和华中师范大学信息管理学院研究生自主科研项目“融合Folksonomy与知识图谱的消费者健康信息组织”的成果之一。

摘要：[目的/意义]基于知识图谱与分面检索能够实现健康信息的有效组织，解决其多源异构、专业知识门槛高、语义歧义等方面的问题，从而帮助用户降低专业性医疗知识的使用门槛，引导用户更快获取资源。[方法/过程]将知识图谱与分面检索相结合，构建基于医学知识图谱的慢性病在线医疗社区分面检索模型，主要包括分面体系构建、分面与焦点排序以及分面展现控制3个步骤，并以百度贴吧自闭症吧为数据来源对分面检索原型予以实现。[结果/结论]所构建的自闭症分面检索原型系统应用效果较好，提高了用户检索的效率与质量。提出的分面检索模型对完善健康信息服务等相关理论和方法具有一定推动作用。

关键词：知识图谱；分面检索；在线医疗社区；慢性病

保存在CSV文件中，使用Cypher语句读取csv文件中数据并导入至Neo4j数据库中。所构建的知识图谱（见图2）显示了与自闭症有关的并发症、表长期以来，健康信息多受到官方及医疗机构的严格管控，使其被应用于医疗诊断、医学知识科普、疾病监控等方面的范围有限。随着信息技术的蓬勃发展、互联网的大规模普及以及国家健康政策的大力推动，使在线健康信息的应用不再局限于专业健康网站，而是伴随着社交媒体逐步深入到人们的日常生活中⑴。但由于医学信息资源的数量庞大以及医学知识的复杂性，当前在线健康信息并未得到有效组织，无序化现象依然存在。与此同时，目前大多数在线健康信息表现为非结构化状态，对非医学专业人员（即普通用户）而言，难以对其进行高效快速的检索,加之医学专业词汇与非医学专业人员用词（即普通用户使用的日常词汇）之间存在的较大差异，用户只能依据自己的知识和经验对某些专业术语进行理解和使用，极易造成对专业术语的曲解，从而导致其难以有效检索、获取和正确理解健康信息所包含的真实内容。因此，如何有效地实现在线健康信息组织，提升用户对在线健康信息的利用效率，是当前该领域亟待研究与解决的问题。

知识图谱以自身强大的语义关联能力与信息组织能力，一方面能够有效实现概念推理，并将概念间的关联关系以可视化形式呈现给用户，为其提供更为结构化、系统化的知识。另一方面，将知识图谱技术应用于分面检索中，能够将事物从不同的方面进行拆解，为用户提供与上下文相关的检索结果，在检索过程中用户通过自由切换导航页面，可从多个维度对信息及其关联关系进行挖掘，从而获取所需信息。基于此，本文尝试融合知识图谱与分面检索，对在线医疗社区的分面导航功能进行改进与优化,以期为当前在线医疗社区中的慢性病信息利用提供一个更为有效的解决方案。

1国内外相关研究

知识图谱已在领域知识组织与服务、个性化检索等方面表现出极大的应用优势，故以下将从知识图谱及其在健康信息领域中的应用现状、分面检索相关研究两个方面进行国内外研究现状的梳理。

1.1知识图谱及其在健康信息领域中的应用现状

知识图谱（KnowledgeGraph）于2012年由谷歌公司首次提岀⑵，其基本单位是“实体1一关系一实体2”的三元组形式。健康信息领域中，学术界对知识图谱的相关研究主要集中在知识图谱构建与应用两方面。图谱构建方面，韩普等认为构建面向医疗领域的知识图谱既是一项非常重要的基础任务，也是人工智能领域的重要发展方向，由此提出了构建融合多源数据的医疗知识图谱框架⑶；盛明等提出了一个面向疾病领域的医疗健康知识图谱构建系统架构，并证实了该系统架构可辅助医生获得高度专业化的医疗健康知识图谱⑷；奥德玛等利用自然语言处理与文本挖掘技术，通过人机结合的方式研发了中文医学知识图谱第一版（CMeKGl.O）"］。图谱应用方面，国内外学者的研究主要聚焦三个方面s'：①辅助决策。如聂莉莉等通过自然语言方法构建了基于“疾病一症候一特征”结构模型的医学诊断知识图谱，并将其运用到临床决策支持系统中。②医疗信息搜索引擎。如Huang等使用LSA自动挖掘实体间的语义关系，在PubMed数据库中实现了对实体一关系、实体一实体的査询的扩展。③医疗问答与推荐方面。如ShenYing等结合双向长短记忆模型与医学知识图谱进行表征学习，提高了医疗问答的准确性。

综上，知识图谱在在线医疗社区信息组织与服务中有着广阔的应用前景，借助知识图谱技术可对海量、多源、异构的健康信息进行有效分析和序化组织，使孤立的健康信息具备语义，从而进一步改善在线医疗社区中存在的用户检索效率低下、准确率不高等问题。

1.2分面检索相关研究

分面检索又称分面导航，可实现用户交互式和探索式的检索，帮助用户细化检索需求并准确获取所需信息。邱明辉从系统、任务、用户等方面对信息查询系统分面导航的设计和评价进行分析综合，构建了一个面向信息查询系统分面导航的知识体系同。林鑫等通过比较8个文献资源发现系统的分面检索功能，旨在挖掘上述分面检索系统在功能上存在的共性问题陈果等从UGC角度出发，构建了以丁香园心血管论坛为对象的分面导航体系“灯。张鑫等从在线健康信息搜寻任务的角度出发，以切面和属性特征两个维度对在线健康信息查询方式进行分类，构建了一个分面分类理论模型“幻。李兵提出了基于査询意图识别的自适应图书分面检索模型，以证实该模型能更好地适应用户差异化分面检索需求m〕。胡昌平等提出了科技文献内容分面的构建思路，并以教育学科为例实现了该原型系统[14]。
综上所述，尽管分面检索的相关研究已从不同领域的不同角度开展并不断发展，但在健康信息领域中，由于其资源的复杂性而存在的诸如多源异构、专业知识门槛高、语义化等问题，使得该领域的分面检索系统尚未得到有效构建和长期利用。故本文将知识图谱与分面检索相结合,提出了一种基于医学知识图谱的分面检索模型，并通过实证研究以期验证其效果的可行性与科学性。

2研究思路设计

2.1分面检索系统的实施步骤

构建分面检索系统的基本实施步骤主要可分为分面体系的设计、分面及焦点的排序以及分面展现的控制。
1）   分面体系的设计。分面体系具体来说是对某一主题领域按照一定特征或维度进行划分，即分面；分面下的主题又可以通过更为细化的主题进行组织，即类目和子类。分面体系框架确定了分面类型基本范畴、分面类型划分依据与关联关系，故分面体系的设计是影响用户分面检索体验的核心因素。
2）   分面及焦点的排序。为提升用户体验，使分面检索系统更加便于用户进行检索和浏览，需要制定分面和焦点的排序策略。如通过分面对结果的覆盖率展开排序'㈤，分面的覆盖率越高，排序越靠前。
3）   分面展现的控制。随着焦点的不断增加以及分面体系的日益复杂，会增加用户的认知负担，从而降低分面系统的使用效率。为了能够以合适的分面与焦点排序结果满足用户需求，避免信息过载，需要对分面体系的展现进行控制，如减少分面体系的层级、合并不必要的分面等。

2.2知识图谱应用于分面检索的优势分析

1）拓展分面体系。分面检索的核心是分面体系，分面来源于实体本身，其关键在于使用户从一个可预见的角度对实体进行分析与获取。已有的分面体系虽支撑了一定的检索需求，但依然无法满足用户更为多样的个性化需求。而知识图谱能够实现分面体系的自动化构建，利用其丰富的实体、属性及关联关系，不仅可完善分面体系，还可进一步融合UGC生成的知识，通过添加相应的实体及实体关系，为用户提供更多的结果检索与可过滤的分面,从而使用户能够尽可能地减少因医学背景知识不足、医学用语匮乏等而耗费的检索成本。
2）改善分面及焦点的排序方式。在线医疗社区中，不但存在大量多源异构信息，且这些信息间具备各种复杂的语义关系。若向用户展示所有信息，会造成计算量增大和信息过载问题，因此需要找出满足用户需求且价值最大的信息。知识图谱中的实体及其属性可以构成分面或者焦点，实体之间的关系能够加强分面与分面之间的逻辑关系，并为焦点排序提供依据。
3）优化分面及焦点的显示。现有的分面检索系统不仅在分面以及焦点选取时过于机械化，不符合用户习惯，且在优化分面及焦点之间的关系时，仅依靠统计手段以及遵循医学词表和分类层级来满足用户需求或学科层级结构，会导致更为深入的个性化需求无法满足，也容易造成理解上的误差。基于用户检索词与分面、焦点的关系，或者用户已选焦点与其他分面、焦点的关系，将不相关的分面或焦点从待展现的分面体系中剔除，不仅使得用户检索词能与分面、焦点的关系更为紧密，且能够将用户已选的焦点与分面以增强的语义关系进行呈现，引导用户进行细粒度、多粒度检索，从而满足用户个性化需求。

2.3基于医学知识图谱的慢性病在线医疗社区分面检索模型构建

基于知识图谱的慢性病在线医疗社区分面检索模型如图1所示，其核心是对用户当前情境下的需求进行细化,从多个维度选定若干分面引导用户进一步筛选资源。相应的分面检索有三大特点，一是分面检索的结构具有多维语义分类；二是分面检索结果动态变化，即具有合理的分面排序；三是展现策略，既要保留最近査询结果的分面，还要考虑分面展示的变化，例如分面的合并、删除以及焦点变化。

基于知识图谱的慢性病在线医疗社区分面检索模型设计思路

1）   构建慢性病在线医疗社区分面体系框架。分面体系框架构建包括分面分析、分面设定以及焦点词确定。依托慢性病知识图谱构建面向用户需求的分面，除满足用户在信息内容方面的需求，还需考虑慢性病在线社区中主题帖质量等问题，然后根据已设定的分面选取焦点，依据知识图谱中的实体关系，从语义层面选取关系紧密的焦点词。基于知识图谱进行慢性病在线医疗社区分面体系框架构建，避免了仅依据统计检索词频次所带来的语词理解歧义问题。
2）   选择慢性病在线医疗社区分面体系排序方式。在进行分面排序时需要综合考虑三个方面的因素，即该分面是否常用、通过该分面找到某一主题帖的可能性大小以及通过该分面搜寻某一主题帖的路径长短。针对于上述问题，可通过计算分面与用户需求的相关性程度来解决，具体来说，即通过分面中主题帖的覆盖率、语义关联强度以及用户日志使用频率三个指标进行度量。
3）   制定慢性病在线医疗社区分面展现控制策略。分面展现控制的具体策略包括词汇等级调整、分面动态调整以及焦点语义关联显示。词汇等级调整，若某一主题词在知识图谱中包含下位词，且包含该主题词的健康信息集中于一个或几个下位词时，则将该主题词剔除，上移下位词，以简化分面层级；分面动态调整，是指针对于三级及以下等级的分面层级，若多个分面均含有少量的焦点，则将其酌情合并，减少不必要的分面；焦点语义关联显示，焦点的显示按照知识图谱中该焦点词与其他焦点词的语义关联强度进行降序排列。

3分面检索模型的实现

依据2.3中的分面检索模型，本节将从分面体系框架、半固定化分面与焦点排序策略以及分面展现控制三个步骤对该模型的构建过程予以实现。

3.1分面体系框架

在设置分面体系框架前，需先进行分面分析与设定，其目的是确定分面体系框架所涉及的基本大类。本文依据知识图谱中的实体类型为基础设置分面体系的基本大类,以知识图谱中的实体属性为基础设置分面体系中的主题。3.1.1分面分析与设定知识图谱涵盖的相关实体及其关联关系，为分面体系的构建提供了丰富的数据及语义关系，亦能够有效支持用户进行检索结果的过滤与筛选。当前，医学知识图谱的实体类型通常包括“疾病、部位、病因、并发症、症状、鉴定、检査、治疗、药品”等，本文在此基础上筛选并扩充了以“疾病、症状、部位、诊断/检查项目、医疗科室、饮食、运动、生活起居、治疗、药品（药物）、医生、医院、患者”为分面体系的12类实体，上述实体类型间具有明确的界限，在所覆盖的内容上没有交叉，且较为全面涵盖了健康医疗社区中所涉及的信息主题。上述12类实体从功用上可以分成三个方面：一是确定病情，即帮助用户清晰、准确地界定自身病情，包括疾病、症状、部位、患者4类实体；二是诊断治疗，是指让用户了解到在就医过程中需通过何种方式进行检查、诊治，包括诊断/检査项目、治疗、药品（药物）、医院、医疗科室、医生6类实体；三是日常护理，是指经医生检査、实施治疗后，用户在日常生活中如何进行护理与恢复，主要包括饮食、运动、生活起居3类实体。具体范畴与大类设置如表1所示。
表1在线医疗社区中慢性病分面体系框架

范畴	大类
确定病情	疾病
	症状
	部位
	患者
诊断治疗	诊断/检査项目
	医疗科室
	医生
	医院
	治疗
日常护理	饮食
	运动
	生活起居

在分面设置上，可以从实体属性出发进行分面分析。例如患者这一实体，具有性别、年龄段、过敏史等基本特征，故可将这些基本特征作为分面设置的依据。但在进行分面划分的实际过程中，需选择对用户过滤、筛选检索结果有意义的属性，而非所有的属性，如籍贯属于患者的基本属性，但并不适合作为患者大类的分面依据。在亚面设置上，对于实体间存在上下位关系的，可以此为基础建立亚面。这种情况下，亚面也可作为焦点存在，如自闭症可细分为典型自闭症、艾斯伯格自闭症、高功能自闭症等,故“自闭症”一词既可作为焦点，也可作为亚面存在；而同一个分面中不存在上下位关系，且焦点数量较多时,可依据焦点的特征选择相应属性进一步设置亚面，以降低用户认知负担。

此外，在线医疗社区中，由于社交网络结构的复杂性，且用户的受教育程度、知识素养及创建UGC的动机等有所差异，使得UGC中存在着诸多无用甚至是错误的内容，故还需建立面向在线医疗社区的UGC质量评价指标体系。国内外相关学者针对该方面的研究为本文提供了多种参考，如B.Stvilia、邓胜利、钱明辉、刘冰等均构建了用户视角的网络健康信息服务质量评价体系［,6-'51o基于前人研究以及慢性病在线医疗社区信息组织结构的特殊性，本文选取了以下5个指标加入分面体系构建中，如表2所示。
表2慢性病在线医疗社区UGC质量分面体系

表2慢性病在线医疗社区UGC质量分面体系
	有无反馈	指健康信息帖子是否有反馈，这是在线医疗社区中最重要的一个评价指标
	权威性	健康信息反馈者是否是该领域有声望的专家、帖子反馈次数、帖子点击浏览次数
信息质量	时效性	健康信息更新频率，具体指用户咨询的健康信息的最后反馈时间
	有用性	用户咨询的健康信息是否被该用户采纳、反馈内容的点赞次数
	丰富性	健康信息是否覆盖了疾病的多个方面，如名称、症状、并发症、日常护理等

3.1.2基于医学知识图谱的在线医疗社区分面体系框架完成分面体系中的范畴与大类设置后，需对知识图谱中的各类实体逐一解析，以建立科学、合理、完善的在线医疗社区分面体系框架。基于具体检索词的检索结果中涉及的“表现症状、部位名称、医疗科室”分面都较为有限，无进一步细分的必要，因而均未设置亚面，仅将其构建成分面一焦点两级体系；剩余9个分面，则均设置了多个分面或亚面，具体分面与亚面设置如表3所示，共设置为以下7个大类。
1）   疾病大类。该大类下设置疾病名称和并发症两个分面。在线医疗社区中，用户一般以具体疾病名或症状出发査询所需信息，因此该分面下不再设置亚面，以减少分面层级，降低用户操作成本。
2）   患者大类。针对不同的人群，一般会采用不同方式进行检査和治疗，且在划分方式上较为多样，由此可在患者大类中形成多个分面，主要包括性别、年龄段、过敏、病因、特殊人群（如孕妇、哺乳期妇女等）。其中，病因分面可以进一步设置遗传因素、环境因素、遗传一环境因素3个亚面。
3）   诊断/检査项目大类。物理检查与化学检査、一般检查与特殊检査、中医检查与西医检查等多个常见分面，均是将诊断/检査项目大类细分成的多个亚面，而非从某一角度涵盖所有的诊断/检查项目。基于此，可直接将大类名称作为分面名称，同时，为避免单个实体（焦点）被分至多个亚面，可以以中医和西医作为第一层亚面，继而将西医这一亚面再细分为物理检査和化学检查，或一般检查与特殊检查。
4）   医院、医生大类。该大类可以从多个角度进行细分。以医院为例，用户较为关注的为其所在地域、医院级别、特色科室、知名度等，因此可以从上述角度进行分面设置。同时，鉴于医院数量众多，为便于用户査找，可进一步按名称拼音首字母进行亚面划分。
表3在线医疗健康衬   :区中慢性病分面体系框架

表3在线医疗健康社区中慢性病分面体系框架
范畴	大类	分面	亚面
定情确病	疾病	疾病名称	无
	疾病	并发症	无
	症状	表现症状	无
	部位	部位名称	无
	患者	性别	无
		年龄段	一般以5年分段
		病因	遗传因素、环境因素、遗传一环境因素交互作用…
		特殊人群	无
		过敏	无
诊断	诊断/检査	诊断/检査项目名称	中医检査、西医检查（二级亚面：物理检査、化学检査/一般检查、特殊检査）
治疗	项目	诊断/检査项目名称	中医检査、西医检查（二级亚面：物理检査、化学检査/一般检查、特殊检査）
	医院	按地域分	按拼音顺序分
		按等级分	按拼音顺序分
		按知名度分	按拼音顺序分
		按特色科室分	按拼音顺序分
	医疗科室	医疗科室名称	无
	医生	按地域分	按拼音顺序分
		按职称分	按拼音顺序分
		按知名度分	按拼音顺序分
		按性别分	按拼音顺序分
		按从业时间分	按拼音顺序分
	治疗	治疗方式	医疗设备、心理治疗、运动治疗、手术治疗…
		药品（药物）名	中药、中成药、西药-注射、口服、外用…
日常护理	饮食	饮食	适宜、禁忌-春、夏、秋、冬（肉类、蛋类、海鲜、蔬菜、水果、零食、酒水饮料…）
	运动	运动	适宜、禁忌一＞春、夏、秋、冬
	运动	运动	（球类、跑步、游泳、健步…）
	生活起居	生活起居	适宜、禁忌一春、夏、秋、冬
	生活起居	生活起居	（吸烟、喝酒、着装、作息…）
UGC 内容质量	信息质量	有无反馈	指健康信息帖子是否有回复，这是在线医疗社区中最重要的一个评价指标
		权威性	健康信息反馈者是否是该领域有声望的专家、帖子反馈次数、帖子点击浏览次数
		时效性	健康信息更新频率，具体指用户咨询的健康信息的最后反馈时间
		有用性	用户咨询的健康信息是否被该用户釆纳、反馈内容的点赞次数
		丰富性	健康信息是否覆盖了疾病的多个方面，如名称、症状、并发症、日常护理等

5）治疗、药品（药物）大类。该大类分别设置治疗方式和药品（药物）名称分面，亚面需根据具体特点进行设置，如治疗方式的亚面，主要包括医疗设备、心理治疗、运动治疗、手术治疗等；而药品（药物）适合从多个角度进行亚面设置，可以从用户需求角度为出发点，将中药、中成药和西药体系与注射、口服、外用体系互相作为二级亚面。
6）饮食、运动、生活起居大类。这三个大类具有比较强的共性，均可以大类名称作为分面名称，同时将适宜和禁忌作为亚面名称。在此基础上，再根据季节及大类特征进行二级亚面的设置，如饮食可以分为肉类、蛋类、海鲜、蔬菜、水果、零食、酒水饮料等二级亚面。
7） UGC信息质量大类。使用包括有无反馈、权威性、时效性、有用性、丰富性5个方面的要素作为衡量主题帖质量的标准，返回质量较高的主题帖，而与主题帖中所涉及的具体内容无直接关联，因此不做单独分面处理,而是设置为高级选项。

3.2分面与焦点的排序策略

进行分面和焦点的排序时，首先需要通过知识图谱分析分面及焦点之间是否存在关联关系，若存在关联关系，则需进一步考虑关联关系的强度。本文通过计算分面覆盖率和语义关联强度制定分面排序策略，并以此为基础实现焦点排序。

3.2.1基于医学知识图谱的分面及焦点语义关联分析在分面体系中，分面、亚面和焦点间有无语义关联、关联的强度大小均是影响其分面检索效果的重要因素。知识图谱所提供的实体与实体间路径关系，为分面、亚面和焦点间关联分析提供了语义基础，故可依据知识图谱进行在线医疗社区分面体系中的分面及焦点词关联关系分析，具体方式如下：①判断不同分面中的焦点间是否存在语义关联。在多个分面之间，如果焦点间的语义关联路径长度为1,则认为这些跨分面的焦点存在直接关联关系，关联强度标记为“1”，否则为无关联，直接标记为“0”。如表现症状分面中的焦点“抑郁”和治疗方式分面下的亚面中的焦点“药物治疗”的路径为1,则认为其间存在直接语义关联关系，关联强度为“1”。②判断同一分面中不同亚面下的焦点是否存在语义关联。在同一分面中的不同亚面之间，若焦点间能通过另外的一个或多个焦点关联起来，则认为其存在关联关系，其关联强度标记为“1/关联路径长度”。如在诊断/检査项目分面中，物理检查亚面下的“血常规检查”和化学检査亚面下的“颅脑CT检査”之间并无直接关联，但可通过疾病焦点进行关联，路径长度为2,则可认定两个焦点间存在语义关联，关联强度为“0.5”。③判断不同分面间是否存在语义关联。在两个分面之间，若其焦点存在语义关联，则认为分面间存在语义关联，关联强度标记为“关联的焦点数/分面总焦点数”，反之无关联，关联强度标记为“0”。如表现症状分面和药品（药物）名分面，由于焦点“抑郁”和焦点“极度孤僻”与“舍曲林”和“舒必利”间存在直接关联，故认定这两个分面之间也存在语义关联。

3.2.2融合覆盖率与语义关联强度的分面排序策略在分面检索中，分面覆盖率的概念内涵为：若分面A覆盖了P条结果（去重后），且检索结果总共g条，则覆盖率为p/q。分面的语义关联强度依据知识图谱计算，主要包含以下几个步骤：①统计相关检索结果的数量。对检索系统所展现的检索结果进行统计，明确所有与检索词相关的分面、焦点所对应的具体结果数量。②过滤不相关分面信息。基于用户的检索词和已勾选的焦点信息，过滤掉与其不存在语义关联的那一部分分面。③对相关分面进行排序。基于分面覆盖率和分面语义关联强度，从所有存在语义关联的分面中，选出排序位于首位的分面。在这一过程中，分面覆盖率越高，其排序越靠前，分面语义关联强度越大，其排序越靠前。④循环②③环节，对所有相关分面进行排序，构建并展现具有语义关联的分面体系。在循环过程中，不仅仍需基于分面覆盖率和分面语义关联强度来选择分面，还需根据已展现的、排序靠前的分面进行过滤，剔除与任意一个已展现分面不相关的分面。
3.2.3融合语义关联强度与覆盖率的焦点排序策略对于焦点间顺序已固定的情况，只需按照已有的顺序将其排列即可。本文所制定的焦点排序策略是针对焦点间不存在固定顺序情况而言的，具体策略如下：①计算检索词与焦点之间的语义距离。若两者之间存在直接语义关联，则语义距离为1;当两者之间不存在直接语义关联时，需要借助其他焦点，则语义距离为关联路径长度。②计算检索词与焦点所在分面的语义距离。根据检索词与焦点的关联强度对焦点所在的分面进行排序，检索词与焦点的语义距离越短，焦点所在的分面排序越靠前。③若语义距离相同，则需考虑根据焦点的覆盖率大小进行降序排序。将语义关联与覆盖率相结合，形成完整而有序的焦点排序结果，能够有效解决分面检索中的信息过载问题。

3.3分面展现控制机制

制定分面展现的控制机制，首先需根据用户检索词获取知识图谱中的慢性病分面体系；其次根据检索结果判断是否展现该分面，若检索结果数量较多，则展现该分面,否则不展现；然后统计分面体系中每一焦点的频次，将其与分面取值进行融合；最后对分面体系进行动态调整。在调整过程中需关注：①剔除频次为0的焦点，若剔除后包含该焦点的分面为空，则将该分面进行剔除；②若某分面下多个亚面的非空取值均较少，可对其合并，并对其他层级进行相应处理；③若某分面只有一个亚面不为空，其余亚面均为空，则将其提升至上一级亚面的位置，并对其他层级进行相应处理；④对各分面排序，可按照对应主题帖数量进行降序排列。

4基于医学知识图谱的慢性病在线医疗社区分面检索实证研究——以百度贴吧自闭症吧为例

自闭症（AutismSpectrumDisorder,ASD）又称为孤独症、孤独性障碍，多患于儿童群体中。美国疾病控制与预防中心（CDC）研究表明：自闭症的患病率不断提高，已从罕见病变成了流行病1涧，笔者因此选择这一具有典型代表性疾病为应用案例，构建其分面检索系统原型。数据来源于百度贴吧中自闭症吧2019年1月1日一2020年2月1日发布的所有帖子（抓取字段包括发帖人昵称、发帖人ID、发帖内容、回帖数、是否精华帖、抓取时位于贴吧码），剔除广告、招聘、转卖门票等非自闭症相关主题帖后，共计7698条。

4.1“自闭症”知识图谱构建与可视化展示

笔者使用Neo4j构建自闭症知识图谱并进行可视化展示。首先将贴吧中的自闭症数据按3.1.2节中的分面体系进行编码，使用人机结合的方式进行分词并确定实体及其关系，最后将获取的自闭症实体与实体间的关系现症状、病因、治疗方式、诊断/检查项目、药品（药物）名、饮食、科室名称、医生。对于具体疾病而言则需要根据疾病特点进行知识图谱展示，这也是分面体系中存在诸如部位名称、生活起居、运动等分面，而自闭症知识图谱中并未加入这些分面所涉及的实体的原因。此外，患者和UGC信息质量的主要作用是缩小检索范围，并不适于展现于自闭症知识图谱中。

4.2分面检索原型系统实现

根据2.3节构建的分面检索模型，进行自闭症分面检索原型的实现。分面体系部分，结合3.1.2中的分面体系框架与自闭症疾病自身特征，确定自闭症分面体系：首先，自闭症作为一种心理疾病，没有具体的发病部位，因而将分面体系中的部位名称这一分面删除；其次医院/医生分面可从不同角度划分，在本文中默认为按等级/职称+名称拼音首字母进行分面；然后UGC信息质量分面用于辅助用户提高搜索结果质量，不直接列入自闭症分面体系中；最后，在分面体系设置一个特殊分面——其他,用于归类不属于分面体系范围中的健康信息。经上述环节后，自闭症分面体系如表4所示。

表4百度贴吧自闭症分面体系

范畴	分面	亚面	焦点
	疾病名
	疾病名		自闭症
确定病情	并发症
			儿童精神分裂症
			癫痫持续状态
			精神发育迟滞

	表现症状
			行为方式刻板
			言语发育迟缓
			抑郁

	性别
			男
			女
	年龄段
			0~1岁半
			1岁半~2岁

	过敏史
			花粉过敏

	病因
		环境因素
			围产期

	特殊人群
			孕妇

诊断治疗	诊断/检查项目	西医检查
			脑部CT
			脑脊液钙


	治疗方式	药物治疗
			氟哌呢醇
			舒必利

		心理治疗
			音乐治疗

	药品（药物）名	西药
			氟脈晚醇
			舒必利
			舍曲林


	医院	按等级+名称拼音首字母分
			北京大学第六医院
			北京大学第三医院


	医疗科室名称
			儿科
			神经科
	医生	按职称+名称首字母分
			郭延庆
			李斐


日常护理	饮食	宜吃
			清淡饮食
			绿色蔬菜

		忌吃
			蛋白食物
			水杨梭盐食物

自闭症分面体系排序则需结合基于用户日志信息的分面使用频率、分面中主题帖覆盖率和分面语义关联强度三个因素共同实现。由于缺少用户日志信息，因此在该原型系统实现中仅考虑分面中主题帖覆盖率和分面语义关联强度两个因素。分面中主题帖覆盖率为该分面得到的检索结果数与检索结果总数的比值；分面语义关联强度则利用分面与焦点/分面关联路径长度衡量；总权值为分面中主题帖覆盖率与分面语义关联强度的乘积。以焦点“不会说话”为例，其分面权值计算方式如表5所示。其中，症状大类是除“不会说话”之外的其他焦点构成的分面。计算各分面语义关联强度则使用症状分面与其他分面的关联路径长度。
自闭症分面检索的展现控制中，首先分面的展现根据实际情况进行调整排序，即根据检索词与各分面的总权值降序排列；其次如果分面下的焦点数量少于3个，若该分面存在亚面，则不展现该焦点，将其亚面的焦点直接展现。若该分面不存在亚面，则将该分面的词上移并展现;最后自闭症分面检索原型将默认分面展现数量上限设置为7个，单个分面展现焦点数量默认为4个。

表5	焦点“不会说话”各分面权值
分面	各分面的帖子覆盖率（%）	各分面的语义关联强度	总权值*10
疾病名	23.45	1	2. 35
并发症	0	0.5	0
表现症状	46.21	1	4. 62
性别	27. 59	0.5	1.38
年龄段	75. 86	0.5	3. 79
病因	0	0.5	0
特殊人群	0	0.5	0
过敏	0	0.5	0
诊断/检查项目	9. 66	1	0. 97
治疗方式	15. 86	1	1.59
药品（药物）名	0	1	0
医院	8. 97	0.5	0. 45
医疗科室名称	0. 69	0.5	0. 03
医生	1.38	0.5	0. 07
饮食	0	0.5	0
运动	0	0.5	0
生活起居	0	0.5	0

4.3原型分面检索结果展示

在实现分面检索原型系统开发后，需针对具体实例进行结果展示。以焦点“不会说话”为例得到的分面检索结果如图3所示。图3中所构建的分面检索原型系统在左侧设立了分面导航，以UGC信息质量评价为依据的分面则放置于该原型系统的对话框下方，便于用户及时使用，包括“有无回复、按时间、浏览次数”等，其中“有无回复”项默认选择有回复并按照回复数量降序排列，按“时间”项默认为时间降序排列，“浏览次数”项则是将得到的检索结果直接默认降序排列。图4为百度贴吧自闭症吧中，直接以“不会说话”为检索词进行检索得到的结果截图。
百度贴吧自闭症吧中的检索命中策略仅为基于语词的匹配，即只匹配出现“不会说话”这一语词的相关信息，而对于出现的同义词等问题处理程度不够，如“不会说话”与“无语言”“无言障碍”表达相同或相似的含义，在自闭症吧中却将它们看作不同的语词进行处理；其次自闭症吧并未对检索结果进行有效组织，仅仅将其罗列并显示，这使得用户在查找信息时需要逐一筛选，从而增加了用户的时间成本；最后自闭症吧中的主题帖是孤立存在的，缺乏语义上的关联，不利于用户进一步明确自身的健康信息需求，最终导致用户査找健康信息困难甚至无法查找到所需信息。改进后的分面检索原型（见图3）增加了对同义词的处理，利用分面体系对检索结果进行组织，并向用户提供了表现症状、年龄段、疾病名、治疗方式、性别、诊断/检查手段、医院等分面，有助于用户依据自身情况快速定位所需信息，明确健康信息需求，改善检索结果质量，提高其筛选检索结果的效率。

5结束语

随着信息时代的到来，在线医疗社区将成为或已经成为用户获取健康信息的主要途径。而当前，在线医疗社区尚未构建合理的分面检索体系，健康信息并未得到合理组织，信息过载、资源重复建设现象依然存在，导致分面检索效果并不理想，诸如分面中主题覆盖率低、焦点间缺乏语义关联、结果展现冗余等问题在一定程度上影响了用户体验。基于此，本文提出基于医学知识图谱的慢性病在线医疗社区分面检索模型的构建方案，并以百度贴吧自闭症吧为数据来源对该模型予以实现。实证结果表明，该原型系统的使用能够帮助用户进行健康信息査询、过滤与筛选，检索结果的呈现更为清晰。此外，该原型系统的分面与焦点排序策略亦能够进一步改善以往检索结果展现中存在由信息冗余导致的资源过载问题。

本文构建的慢性病在线医疗社区分面模型是一个较为通用的框架，可以应用于其他领域，但原型系统的实现并未涉及模型的所有方面，存在一定的不足，主要包括：①原型系统的实现只针对一种疾病实现分面检索，需进一步扩大数据规模；②缺乏用户日志数据，在制定分面排序策略时还应考虑用户行为等因素。

参考文献

[1 ] OH S, ZHANG Y, PARK M. Cancer information seeking in social Q&A： identifying health-related topics in cancer questions on Yahoo! Answers [ J]. Information Research, 2016, 21 (3)； 718.
[2 ] AMIT S. Introducing the knowledge graph things, notstrings [EB/OL ], [ 2020-05-14]. https：//www. blog, google/prod- ucts/search/ introducing-knowledge-graph-things-not/.
[3]韩普，马健，张嘉明，刘亦卓.基于多数据源融合的医疗知识图谱框架构建研究[JL现代情报，2019, 39 (6)： 81-90.
[4]盛明，陈玉思，张勇，韩光洁，黄天昊，刑春晓.一种面向医疗健康领域知识图谱的可扩展系统架构的研究[JL 小型微型计算机系统，2019, 40 (10)： 2150-2154.
[5]奥德玛，杨云飞，穗志方，代达励，常宝宝，李素建，咎红英.中文医学知识图谱CMeKG构建初探[J].中文信息学报，2019, 33 (10)： 1-9.
[6]袁凯琦，邓扬，陈道源，张冰，雷凯.医学知识图谱构建技术与研究进展〔J].计算机应用研究，2018, 35 (7)： 1929-1936.
[7] 侯梦薇，卫荣，陆亮，兰欣，蔡宏伟.知识图谱研究综述及其在医疗领域的应用[JL计算机研究与发展，2018, 55 (12)： 2587-2599.
[8]何霆，吴雅婷，王华珍，熊英杰，孙偲，徐汉川.基于EHR的医疗知识图谱研究与应用综述[J].哈尔滨工业大学学报，2018, 50 (11)： 137-144.
[9]邱明辉.信息査询系统的分面导航设计研究[JL现代情报，2018, 38 (10)： 78-84, 120.
[10]林鑫，吴茜.文献资源发现系统分面检索功能比较研究 [J].数字图书馆论坛，2019 (9)： 16-23.
[11]陈果，肖璐，孙建军,面向网络社区的分面式导航体系构建一以丁香园心血管论坛为例[J],情报理论与实践， 2017, 40 (10)： 112-116.
[12]张鑫，王丹.用户在线健康信息捜寻任务研究[J].情报资料工作，2017 (6)： 74-83.
[13]李兵.基于査询意图识别的自适应图书分面检索研究 [JJ.图书馆学研究，2017 (15)： 578L
[14]胡昌平，林鑫.科技文献检索中基于主题词表分面化改造的分面构建〔J],情报学报，2015, 34 (8)： 875-884.
[15]DEBABRATA D, et al. Dynamic faceted search for discovery- driven analysis [ EB/OL ]. [ 2020-02-05 ]. http://www.es. kuleuven. be/ ~ berendt/teaching/2008s/ctdb/Materials/facets- cikm-08. pdf.
[16]SVILIA B, MON L, Y1 Y J. A model for online consumer health information quality [ J]. Journal of the American Society for Information Science & Technology, 2010, 60 (9 )： 1781-1791.
[17]邓胜利，赵海平.用户视角下网络健康信息质量评价标准框架构建研究[J].图书情报工作，2017, 61 (21)： 30-39.
[18]钱明辉，徐志轩，连漪.在线健康咨询平台信息质量评价及其品牌化启示[J].情报资料工作，2018 (3)： 57-63.
[19]刘冰，张文珏.基于用户视角的网络健康信息服务质量评价体系构建研究[J].情报科学，2019, 37 (12)： [20]Data & Statistics on Autism Spectrum Disorder [ EB/OL ]. [2020-02-05 ]. https ；//www. cdc. gov/ncbddd/autism/data, html.