科技网

当前位置: 首页 >自媒体

靠这个谱让机器会思考

自媒体
来源: 作者: 2019-04-05 23:14:53

靠这个“谱”让机器会思考

作者:张佳星来源:科技

视觉中国

如果说波士顿动力的翻跟头是在帮机器人锻炼筋骨,那末知识图谱的绘制则是在试图创造一个能运转的机器人大脑。

目前,还不能做到让机器理解人的语言。中国科学院软件所研究员、中国中文信息学会副理事长孙乐说。无论是能逗你1乐的Siri,还是会做诗的小冰,亦或是会悬丝诊脉的沃森,它们其实不真正明白自己在做什么、为何这么做。

让机器学会思考,要靠谱。这个谱被称为知识图谱,意在将人类世界中产生的知识,构建在机器世界中,进而构成能够支持类脑推理的知识库。

为了在国内构建一个关于知识图谱的全新产学合作模式,知识图谱研讨会日前召开,来自高校院所的研究人员与产业团队共商打造全球化的知识图谱体系,建立世界领先的人工智能基础设施的开辟性工作。

技术原理:把文本转化成知识

对于姚明是上海人这样一个句子,存储在机器里只是一串字符。而这串字符在人脑中却是活起来的。孙乐举例说。比如说到姚明,人会想到他是前美职篮球员、小伟人、中锋等,而上海会让人想到东方明珠、繁华都市等含义。但对机器来讲,仅仅说姚明是上海人,它不能和人类一样明白其背后的含义。机器理解文本,首先就需要了解背景知识。

那如何将文本转化成知识呢?

借助信息抽取技术,人们可以从文本中抽取知识,这也正是知识图谱构建的核心技术。孙乐说,目前比较流行的是使用三元组的存储方式。三元组由两个点、一条边构成,点代表实体或者概念,边代表实体与概念之间的各种语义关系。一个点可以延伸出多个边,构成很多关系。例如姚明这个点,可以和上海构成出生地的关系,可以和美职篮构成效率关系,还可以和2.26米构成身高关系。

如果这些关系足够完善,机器就具备了理解语言的基础。孙乐说。那末如何让机器具有这样的理解力呢?

上世纪六十年代,人工智能先驱麻省理工学院的马文明斯基在一个问答系统项目SIR中,使用了实体间语义关系来表示问句和答案的语义,剑桥语言研究部门的玛格丽特玛斯特曼在1961年使用Semantic Network来建模世界知识,这些都可被看做是知识图谱的前身。孙乐说。

随后的Wordnet、中国的知(Hownet)也进行了人工构建知识库的工作。

这里包括主观知识,比如社交站上人们对某个产品的态度是喜欢还是不喜欢;场景知识,比如在某个特定场景中应当怎样做;语言知识,例如各种语言语法;常识知识,例如水、猫、狗,教人认的时候可以直接指着教,却很难让计算机明白。孙乐解释,从这些初步的分类中就能感受到知识的海量,更别说那些高层次的科学知识了。

构建方式:从手工劳动到自动抽取

2010年以后,维基百科开始尝试众包的方式,每个人都能够贡献知识。孙乐说,这让知识图谱的积累速度大大增加,后续百度百科、互动百科等也采取了类似的知识搜集方式,发动公众使得积沙这个环节的时间大大缩短、效力大大增加,无数的知识从四面八方赶来,迅速集聚,只待成塔。

面对如此大量的数据,或说文本,知识图谱的构建工作自然不能再手工劳动,让机器自动抽取结构化的知识,自动生成三元组。孙乐说,学术界和产业界开发出了不同的构架、体系,能够自动或半自动地从文本中生成机器可辨认的知识。

孙乐的演示课件中,有一张生动的图画,一大摞文件纸吃进去,电脑马上转化为知识,但事实远没有那末简单。自动抽取结构化数据在不同行业还没有统一的方案。在百度知识图谱的介绍中这样写道:对提交至知识图谱的数据转换为遵守Schema的实体对象,并进行统一的数据清洗、对齐、融会、关联等知识计算,完成图谱的构建。但是大家发现,基于维基百科,结构化半结构化数据挖掘出来的知识图谱还是不够,因此目前所有的工作都集中在研究如何从海量文本中抽取知识。孙乐说,例如谷歌的Knowledge Vault,和美国国家标准与技术研究院主办的TAC-KBP评测,也都在推动从文本中抽取知识的技术。

在权威的知识库自动构建国际评测中,从文本中抽取知识被分解为实体发现、关系抽取、事件抽取、情感抽取等4部分。在美国NIST组织的TAC-KBP中文评测中,中科院软件所搜狗联合团队取得综合性能指标第3名,事件抽取单项指标第1名的好成绩。

我国在这一领域可以和国际水平比肩。孙乐介绍,中科院软件所提出了基于Co-Bootstrapping的实体获得算法,基于多源知识监督的关系抽取算法等,大幅度下降了文本知识抽取工具构建模型的本钱,并提升了性能。

终极目标:将人类知识全部结构化

《圣经旧约》记载,人类联合起来兴修希望能通往天堂的高塔巴别塔,而今,创造AI的人类正在建造这样一座巴别塔,帮助人工智能企及人类智能。

自动的做法让知识量开始构成范围,到达了能够支持实际运用的量级。但是这种转化,还远远未达到人类的知识水平。孙乐说,何况人类的知识一直在增加、更新,一直在动态变化,理解也应当与时俱进地体现在机器脑中。

因此知识图谱不会是一个静止的状态,而是要构成一个循环,这也是美国卡耐基梅隆大学等地方提出来的Never Ending Learning(学无止境)的概念。孙乐说。

资料显示,目前谷歌知识图谱中记载了超过35亿事实;Freebase中记载了4000多万实体,上万个属性关系,24亿多个事实;百度百科记录词条数1000万个,百度搜索中应用了联想搜索功能。

在医学领域、人物关系等特定领域,也有专门的知识图谱。孙乐介绍,Kinships描写人物之间的亲属关系,104个实体,26种关系,10800个事实;UMLS在医学领域描写了医学概念之间的联系,135个实体,49种关系,6800个事实。

这是一幅充满美好前景的雄伟蓝图。孙乐说,知识图谱的最终目标是将人类的知识全部形式化、结构化,并用于构建基于知识的自然语言理解系统。

虽然令业内满意的真正理解语言的系统还远未出现,目前的巴别塔还只是在基础层面,但相干的运用已经显示出广阔的前景。例如,在百度百科输入冷冻电镜,右竖条的关联将出现施一公,输入撒币,将直接在搜索项中出现王思聪等相干项。其中蕴含着机器对人类意图的理解。

知识图谱的应用涉及到众多行业,尤其是知识密集型行业,目前关注度比较高的领域:医疗、金融、法律、电商、智能家电等。孙乐介绍,基于信息、知识和智能构成的闭环,从信息中获取知识,基于知识开发智能运用,智能应用产生新的信息,重新的信息中再获得新的知识,不断迭代,就可以不断产生更加丰富的知识图谱,更加智能的应用。( 张佳星)

连花清瘟有几种制剂
小儿感冒药有啥区別
小儿感冒药中成药排行

相关推荐