图谱是什么意思(知识图谱是干嘛的)

编辑导语:通过知识图谱,不仅可以将互联网上的信息以更接近人类认知世界的形式表达出来,而且为组织、管理和利用海量信息提供了更好的方式;笔者分享了关于AI产品经理的

编辑导语:通过知识图谱,不仅可以将互联网上的信息以更接近人类认知世界的形式表达出来,而且为组织、管理和利用海量信息提供了更好的方式;笔者分享了关于AI产品经理的知识图谱的简介和运用。让我们来看看。

图谱是什么意思(知识图谱是干嘛的)插图01为什么要了解知识图谱?AI的核心是研究如何让计算机完成过去需要人类智能才能胜任的工作,而人类智能的核心体现在对不同事物的感知能力、推理能力和决策能力;所以,想做AI产品,离不开对感知、推理机制、智能决策方向的研究。

就感知智能而言,AI已经取得了很多突破,比如机器对听觉、视觉和触觉的感知,可以借助语音识别和图像识别的一些算法模型,通过摄像头、麦克风或其他传感设备进行识别和理解。

随着智能化的发展,可以收集大量不同来源、不同存储方式的数据。如果想利用这些数据做具体的场景应用,目前市场上常见的方式有两种:

统计分析,也就是在业务中做的最多的数据理解和分析,包括了语义分析、情感分析,及各种指标分析的数据可视化。决策,基于收集或者产生的数据去做自动化决策,或者智能推荐、智能问答等。而在做这些内容时依赖的核心技术就是知识图谱相关的技术。02 知识图谱是什么

了解数据、信息、知识之间的关系,才知道什么是知识图谱。

数据是指声音、图像、符号,通常指最原始的记录,数据间彼此孤立,没有经过加工和解释。信息是指数据经过加工处理后,建立了某种联系或增加了某些属性;信息可以经过加工和处理转化为数据进行存储,数据是信息的表现形式。知识是通过实践获得的认识或经验的总和,可以是已经文本化的知识,也可以是存储在大脑中的认知。

例如:

“38.5”这是一个数据,没有任何意义。

“小明体温38.5度”是个信息,38.5是个关键指标。

“正常人的体温是36-37度。当体温超过基础体温1度以上时,就认为是发热,不同的温度范围又可分为低热和高热……”这是一个知识,是经过许多病例和实验而被普遍认可和正确的。

小明发烧了,因为他的体温是38.5度。这个结果是从知识中推导出来的。

知识地图是一种描述知识和建立基于图模型的关联模型的技术手段。现实世界中常用的知识,或者我们头脑中记忆的知识,通常是描述性的段落;知识图谱是将描述知识的某一段文字抽象成主体、属性、关系三元组,以图谱的形式呈现出来。

下图是一个简单的知识图谱。张柏芝、谢霆锋和王菲是主角。出生日期、性别和年龄是主要属性;“前妻”、“现任女友”、“情敌”都是从知识中抽象出来的关系。

图谱是什么意思(知识图谱是干嘛的)插图(1)知识推理过程

对“前妻”的认识:

男女双方合法结婚,后以协议或诉讼方式解除婚姻关系,夫妻之间的权利义务关系终止。对男方来说,女方叫前妻。

推理过程:

张柏芝和谢霆锋合法结婚,但是婚姻被解除了,张柏芝是一个女人,所以张柏芝是谢霆锋的前妻。

在知识图谱技术中,“张柏芝”、“谢霆锋”、“王菲”称为节点,可以是实体,也可以是抽象概念;粗黑线称为边,表示实体或概念之间的关系。例如,“张柏芝”和“谢霆锋”的关系是“前妻”。

图中的每个圆都是一个节点,连接圆的直线就是边。可以看出,知识图谱是由节点和边组成的;节点之间的边可以是属性或关系。例如,张柏芝和谢霆锋之间的边代表关系,张柏芝和性别:女性之间的边代表属性。

它能用来做什么?

最早的知识图谱用于提高搜索引擎的能力,早期的搜索依靠网页之间的超链接、搜索关键词与网页中包含的关键词之间的匹配关系进行精确或模糊的搜索。

但是,互联网的终极形态是万物互联,搜索的终极目标是对万物的直接搜索。因此,仅仅通过关键词匹配来满足日益丰富的搜索需求是远远不够的。

在传统搜索模式下,当我们搜索“谁是谢霆锋的前妻?””,搜索结果可能是某个网页包含“谢霆锋的前妻是张柏芝”这句话,这样我们就可以找到该网页。从网页上的信息,我们知道谢霆锋的前妻是张柏芝。

图谱是什么意思(知识图谱是干嘛的)插图(2)上面知识图谱的建立,在搜索需求出现时,会快速返回“张柏芝”和个人信息。

图谱是什么意思(知识图谱是干嘛的)插图(3)知识图谱的构建原理和流程?

知识地图的构建通常分为两类,一类是开放领域的知识地图,一类是垂直领域的知识地图。谷歌、百度搜索等搜索引擎建立的知识图谱属于开放领域。比如某个领域,基于电商、金融、资讯、生活、娱乐等特定领域和场景的知识图谱,就是垂直知识图谱。

两个地图的场景应用不同,但涉及的底层逻辑和构建流程相似。

知识地图的构建涉及知识表示、知识获取、知识处理和知识利用。

知识表示:

简单性是指设计者根据各种问题的类型和场景,将获取的知识设计成各种形式,用户可以直接使用这种设计的表示方法来表示这类知识信息。

举个例子,作为一个系统设计师,我把“V”定义为“或”,其他用户可以用“V”来表示“或”。

知识获取:

是指人通过设计、程序编码、人机交互使机器获取知识;比如人工构建知识库,让专家系统获取知识,大部分都是通过人工的手段将人类的知识存储到机器中。这个过程就是知识获取的过程。

知识库是相互关联的事实及数据的集合,常被用来支持专家系统,是专业领域内规则的集合,包含了规则所联系的所有关系和数据。专家系统是人工智能研究方向之一,是指利用人类某个领域专家解决问题的知识或者方法来进行程序化,依赖知识库中的知识体系来进行决策。

知识处理:

它包括知识处理、逻辑判断、推理和知识输出的过程。

自然语言处理是知识处理的核心。

知识利用:

将规范的知识结构应用到具体场景中,创造价值。

在构建技术上,数据和算法是知识地图的底层支撑,包括信息表示、信息提取、信息融合、信息推理和信息决策。

信息来源:

知识图谱数据通常可以通过多种渠道或来源获得,包括文本、结构化数据库、多媒体数据、传感器数据、人工众包数据等。

信息表示:

用计算机语言描述人脑或文本中的知识,帮助下一步的推理。

应用的技术手段,如文本数据,通常使用nlp自然语言处理技术从文本中抽取知识,如实体识别、实体链接、关系抽取、事件抽取等。在RDF中,三元组被用作基本的数据模型。

逻辑基本上包括实体、实体的属性和实体之间的关系。

信息提取:

结构化和文本化数据是目前使用的主要数据形式。现有的D2R工具,如D2RServer,通常用于从结构化数据中提取信息。

从文本中抽取信息主要涉及两个部分:实体识别和关系抽取。通常,可以使用基于特征模板(人工标注)或机器学习的方法来完成关系抽取。

信息融合:

通常,当自己的数据源或知识库不足以构建和解决实际问题时,就会去第三方的知识库或从其他渠道收集结构化数据进行整合;主要包括模式层和数据层的集成,核心问题是避免实体和关系之间的冲突,或者相同实体意义的不同数据标识符造成的不必要的冗余。

知识图谱完成和推理;

这个环节的核心取决于完成算法。一种是基于本体推理的补全方法,另一种是基于图结构和关系路径的补全方法。

通常推理和完成是一个协同的过程,通过推理发现问题来完成。

应用和决策制定:

语义检索,智能问答,智能决策系统,推荐系统。

下面用具体的例子来理解知识地图的构建过程:

03 应用实例:电商知识图谱的构建

目前电子商务的交易场景中,交易规模巨大,不仅涉及线上线下的交易场景,还包括各种新零售、多语种平台,以及线上线下结合的各种复杂购物场景。企业对数据连接的需求越来越强,所以电子商务的知识图谱对行业来说变得非常重要。

电子商务的知识图谱主要围绕商品展开,基于人、货、市场的主框架进行拆解。

在表达电子商务领域的知识时,首先需要确认涉及多少个一级本体和二级本体。电子商务知识的主要来源是知识众包,核心涉及本体的设计,本体侧重于商品本身的属性、消费者的需求以及平台运营管理的机制。

不同平台和渠道的数据采集工具不同,采集到的数据存储形式也会略有不同;比如舆情信息中的卖点、细节、图片、对电商的评价、品牌、口碑,都涉及到大量的文字数据和图片数据。

知识表示涉及各种NLP和CNN技术;要求知识命名识别系统具备大规模实体类型识别的能力,并将识别出的主题与知识图谱联系起来。

阿里的电商认知地图的例子主要有:

商品领域:型号、尺寸、大小、颜色、味道、材质..

用户域:

性别,年龄,风格,品牌,购买力…

LBS领域:购物场景、群体、泛品类...

图谱是什么意思(知识图谱是干嘛的)插图(4)然后,有必要描述实体。除了基本属性和属性值,还需要通过实体标签来实现。大多数实体标签变化很快,通常通过知识推理获得。比如在商品的标签上,可以用材料的配比或者国家行业标准来处理。

例如:

低糖:食品每100克或100毫升的糖含量不能超过5克;无糖:食品每100克或100毫升糖含量不能超过0.5克;

通过知识推理,可以将商品配料表中的数据转化为“无糖”和“低糖”知识点,从而将数据转化为知识标签;大部分信息提取后会比较零散,需要融合已建立的知识库或第三方知识库中的信息,以及实体对齐和实体消歧的技术操作。

实体对齐:

比如迪奥是品牌名,迪奥是同一个品牌的英文名。虽然同一个品牌会因为文字不同而被计算机识别为两个实体,但是我们需要对相似的内容进行对齐和统一。

实体歧义消除:

比如苹果是水果,在某些语境下可能会表达苹果手机,所以需要根据语境进行实体消歧。

以上操作完成后,将提取实体。在实体抽取的过程中,算法会被用来计算实体之间的相似度,这主要依赖于本体库中建立的本体之间的关系进行推理和补全。比如不同的人购买相同的产品或者类似的产品,应该用什么节点来关联知识图谱;可以通过自动提取或手动提取来实现。自动抽取可以执行大规模的任务,在多源异构数据处理中具有很大的优势。

然而,复杂场景的提取和识别仍然需要人工干预。

初步知识图谱构建成功后,需要对知识库的质量进行评估。当一些关系无法从知识库中提取出来时,就需要通过知识推理算法和知识图谱补全算法来优化关系链接。目前市面上已经有一些技术方案,感兴趣的童鞋可以通过查阅更多资料进行拓展。

#专栏作家#

大鹏,微信官方账号:一个数据人的私订。人人都是产品经理专栏作家,也是《数据产品经理实践手册》的作者。

本文由人人作为产品经理原创发布。未经许可,禁止复制。

题目来自Unsplash,基于CC0协议。

免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。

作者:美站资讯,如若转载,请注明出处:https://www.meizw.com/n/63105.html

发表回复

登录后才能评论