文物知识图谱及其在博物馆中的应用
随着博物馆数字化建设的发展,数字技术在博物馆有了广泛且深入的应用。其中,知识图谱技术在文物知识的关联组织、视觉呈现、数据利用等方面都显示了很强的优势,受到博物馆行业的重视。本文将围绕知识图谱的概念,梳理知识图谱与博物馆的关系,并分享山西博物院知识图谱应用的实践,旨在为将来知识图谱在博物馆的深度应用和创新发展奠定基础。
一、知识图谱的定义及其在文博行业的应用
知识图谱是一种用图模型来描述知识和建模世界万物之间的关联关系的技术方法。知识图谱是由节点和边构成的网络结构,其节点可以是实体,或者是抽象概念;边可以是实体属性,或者是实体之间的关系。知识图谱的早期理念来自语义网,其最初理想是把基于文本链接的互联网转化成基于实体链接的语义网络。知识图谱通常存储在图形数据库中,并以图形结构直观呈现出来,即为知识“图”,知识图谱将世界上的各种信息以图形的方式连接起来,让我们能够快速找到相关的信息并看到它们之间的相互关系。
知识图谱是较为典型的交叉领域,涉及知识工程、自然语言处理、机器学习、图数据库等多个领域。近年来,知识图谱的应用开始从通用领域向越来越多的垂直领域扩展,文博领域即是其中之一。文物知识图谱就是知识图谱在垂直领域的应用,它增强了用户对文物知识的直观体验,更易于为用户所接受,同时为博物馆更好地挖掘传播地区历史文化、创建具有吸引力的文化产品、提供良好的知识服务指出了新路径。
文物知识图谱实际是一种描述文物及其相关知识的语义网络,其目标是在语义层面描述文物实体之间的关系。文物知识图谱采用图结构对文物相关数据进行结构化的表示,对于非结构化数据,例如文物的描述文本、音频和图片等,需要对其通过实体识别、抽取以及属性和关系抽取,得到“实体—属性—实体”“实体—关系—实体”的三元组结构化数据。然后,将文本中指向同—实体的不同表述聚合在一起,并解决同名实体存在的一词多义歧义的问题,实现对文物信息的智能理解与知识链接来完成文物知识图谱的构建。对于某些文物的音频和图像数据,还需要进行特征提取、内容理解和相关属性识别,并与其他相关知识进行链接和融合,方可实现对文物知识的共享和复用。构建文物知识图谱的核心是全面描述文物实体的关键信息以及文物之间的关系,从而提高文物信息管理的效率和知识获取的准确性。
二、博物馆文物知识图谱的应用现状
(一)文物知识图谱与博物馆的关系
近几年来,文物知识图谱在世界多个国家得到了应用,出现了一些具有代表性的文物知识图谱项目,世界上大量的博物馆已经广泛使用CIDOC-CRM数据模型,将博物馆的数据映射到该模型上。在推动博物馆文物数字资源和相关资源的语义描述、语义关联和关联数据网络建设中,文物知识图谱扮演的角色至关重要。
1. 文物知识图谱有助于博物馆构建完善的知识体系
传统上,博物馆数字化采集和藏品管理系统所拥有的信息往往围绕单件文物进行组织、管理,缺乏文物之间、文物知识之间关系的展现。文物知识图谱正可以发挥其知识抽取、知识融合的作用,从数量庞大、来源复杂、缺乏统一结构的数据中挖掘文物知识之间的关系,建立起文物之间的关联网络,对文物知识进行科学组织,使博物馆具备持续集成知识的能力,为其展示、研究、教育等工作提供知识供给,有助于更好地解读与阐释文物背后的故事。
2. 文物知识图谱有助于博物馆学术研究的深入开展
文物研究是博物馆的核心工作之一,通过文物知识图谱可以集成大量的、有组织的文物数据和信息,为研究人员提供丰富的研究资源和数据支持。同时,文物知识图谱也可以使博物馆有效地组织、分类和存储文物信息,提高了文物知识的可检索性和共享性,不仅有助于博物馆管理工作的系统化和高效化,也方便博物馆与外界学术机构、研究者的合作,从而进一步推动文物研究领域的发展与创新。
3. 文物知识图谱有助于提升博物馆观众的服务体验
一方面,文物知识图谱可以增强文物知识搜索的准确性,为观众提供个性化的学习路径和互动体验,从而提高他们的学习兴趣和参与度。另一方面,借助数据可视化技术,博物馆能够呈现更为生动、直观的数字展示方式,丰富博物馆的知识供给内容和供给方式,拓展博物馆知识展示的边界,激发观众对文物知识的主动探索与深度理解。
(二)文物知识图谱在博物馆的应用现状
1. 辅助决策的应用
知识图谱可以将博物馆业务的各方面信息进行关联和整合,帮助博物馆更好地组织和管理其数据与信息,为管理人员进行管理提供基于数据驱动的决策依据。例如,南京博物院“数据可视化平台”,运用物联网、大数据、知识图谱等信息技术,对展览、公众服务等方面进行实时全方位的数据监测与分析。
2. 展览展示的应用
数字化展示已经成为博物馆服务公众的重要形式,可通过知识图谱将馆藏文物的本体信息、历史背景、文化内涵、工艺特点等信息进行数字化处理与组织表达,利用新媒体展示技术将文物知识以更加丰富多样的形式直观呈现给公众。
3. 社教服务的应用
知识图谱将博物馆的展品信息和历史文化知识进行整合,让观众了解展品之间的关联和背景故事,为其提供更深入、更全面的学习体验。此外,文物知识图谱在提升观众黏性、拓展教育功能等方面都有应用价值和发展趋势。
4. 保护研究的应用
知识图谱可以帮助博物馆建立文物的信息档案,记录文物的历史、材质、保存状况等信息,这有助于工作人员更科学地制定文物修复和保护方案。此外,知识图谱也可以为博物馆的学术研究提供数据和知识支持,进一步提升研究效率、拓展研究视野。
文物知识图谱在博物馆的应用虽取得了一定的成绩,但存在知识内容的科学性和准确性不高、知识建库的人工整理和智能抽取的统一性未形成、知识图谱可视化形式大同小异等问题。
三、山西博物院的实践与评估
山西博物院从博物馆业务和知识生产角度出发,努力探索知识图谱在博物馆的应用。2017年山西博物院构建了国内首个文物知识图谱,之后在文物数字化保护及国家重点研发项目中也有了一些新的工作进展,积累了经验。主要成果体现在通用文物知识图谱构建、青铜器文物知识概念参考模型构建以及知识图谱的文博创新应用等方面。
(一)构建通用文物知识图谱
1. 文物知识图谱数据来源及加工
博物馆保存有大量藏品本体数据及相关的学术论文、专著、考古报告、报道文章、书籍等形式存在的知识信息,其蕴含着丰富的文物知识,是构建文物知识图谱的重要数据来源。数据按照结构可以分为结构化数据、半结构化数据和非结构化数据。针对不同的数据类型,应采用针对性的处理方式,将所有数据按照资源描述框架(RDF)的要求进行处理,以形成通用型的文物知识图谱。其处理方式分别如下。(1)结构化数据的R2RML转换(图1)。(2)半结构化数据的抓取及RDF转换(图2、图3),包括网络数据的爬取以及HTML数据向RDF数据的转换。(3)非结构化数据的众包标注(图4)。

图1 结构化数据——文物知识图谱数据存储建立过程

2 半结构化数据——网络URL数据抓取过程

化数据——HTML数据转为RDF数据

图4 非结构化数据——文物知识图谱众包平台框架图
2. 通用文物知识图谱构建
在前述数据加工的基础上,文物知识图谱的构建大体包括三个步骤。首先,需要对所搜集的大量文物数据进行清洗、去重和分类等处理,确保数据的一致性和准确性;其次,利用自然语言处理(NLP)和知识抽取、知识融合技术,从文本数据中提取实体、关系、属性等关键信息,建立文物之间的关联关系,构建文物知识组织表达模型;最后,以图数据库或RDF的形式表示和存储文物知识图谱,以便未来对文物知识图谱进行展示和利用。
山西博物院经过多年的文物数据资源建设,积累了大量的数据,这些数据原来都保存在电子表格和信息系统中。在构建文物知识图谱的过程中,通过整理现有文物数据,获取了比较全面的文物本体信息,并选取2000件/套青铜器文物及与之相关的山西省墓葬/遗址,通过关联文物、人物、事件等实体,按照《通用文物知识组织与表达模型规范》,将数据进行结构化处理。此外,通过网络抽取通用文物知识,建立了一个包含文物实体3万多个、事实数量127多万条的通用文物知识图谱数据库。图谱的数据用图数据库来进行存储,在借鉴一些行业本体建模方法的基础上,尝试从事文物本体模型构建,并进行一些可视化的实验。在图谱系统中,可以持续做知识的管理更新与检索,以图像化的形态在文物知识范围中演绎出一幅具有文物属性特征与关系的语义网络,为文物的知识共享和交流展示提供了新的可能。
(二)构建青铜器文物知识组织表达模型
1. 青铜器文物模型构建
青铜器文物知识组织表达模型是通用模型在专题文物领域的延伸和补充,有助于丰富专题文物的关联知识数字化建模和知识组织方式。青铜器文物知识概念参考模型是在通用文物知识表达模型的基础上,借鉴CIDOC-CRM和AAT等国际上广泛使用的一些文物领域的概念模型,在本体知识、纹饰知识、铭文知识、制作工艺知识和器形知识共五方面对青铜器文物特有的语义进行补充和扩展,形成青铜器文物知识组织表达模型(图5)。

图5 青铜器文物知识组织表达模型
表1 文物“汉胡傅酒樽”建模过程表

四、余论
