太阳网集团8722(中国)有限公司

【公司通知】- 6月5日知识图谱高端学术报告会
发布时间:2021-06-02   浏览次数:1049

 - -中文信息学会语言与知识计算专委会学术论坛

1.名称:知识图谱高端学术报告会

2.报告人:

李涓子,清华大学长聘教授,中文信息学会语言与知识计算专委会主任

刘康,中科院自动化所研究员,优青,中文信息学会语言与知识计算专委会秘书长

陈玉博,中科院自动化所副研究员,中文信息学会语言与知识计算专委会委员

辛欣,北京理工大学副教授,中文信息学会语言与知识计算专委会委员

侯磊,清华大学助理研究员,中文信息学会语言与知识计算专委会委员

胡琳梅,北京邮电大学副教授,中文信息学会语言与知识计算专委会委员

刘永彬,南华大学副教授,中文信息学会语言与知识计算专委会委员

3.时间

202165830

4.地点

科技楼517

5.报告简介

  

顺序

报告题目

讲者

1

用知识为AI赋能

李涓子

2

自然语言推理的对齐原理

刘康

3

复杂场景下的事件图谱构建

陈玉博

4

关系抽取能否像事件抽取一样标注触发词?

辛欣

5

知识工程自动化:知识生产和融合平台

侯磊

6

基于图的文本分析

胡琳梅

7

基于少样本的关系抽取技术研究

刘永彬

 

报告1:用知识为AI赋能

 

摘要:知识图谱以结构化的方式描述客观世界中概念、实体及其间的关系,将信息表达成更接近人类认知世界的形式,已经成为互联网知识组织和内容理解的重要基础设施。知识图谱采用本体知识表示方法,是语义Web技术在互联网上的成功应用。本报告围绕知识工程生命周期,概要介绍本体和互联网环境下的知识表示、多源异构知识获取与集成、知识存储管理和典型知识赋能应用。

 

报告人简介:李涓子,清华大学计算机系长聘教授,博士生导师,清华大学人工智能研究院知识智能研究中心主任,清华大学-新加坡国立大学下一代搜索联合研究中心执行主任,中国中文信息学会语言与知识计算专委会主任。

研究方向为知识工程、语义Web和文本挖掘。代表性成果包括:提出动态多策略选择的最小风险本体映射框架RiMOM、提出基于链接因子图的跨语言知识链接方法,建立了包含上千万实体的大规模跨语言知识图谱XLORE。近年来在顶级国际会议和重要学术期刊上发表论文100余篇,谷歌学术引用9000余次;编著出版《Mining User Generated Content》,《Semantic Mining in Social Networks》。主持国家自然科学基金重点课题、科技支撑计划、欧盟第七合作框架等多项国家、国际和部委项目。获得2017年北京市科技进步一等奖,2013年人工智能学会科技创新一等奖,2013年电子学会自然科学二等奖,2011年王选新闻科学技术进步奖一等奖。

报告2:自然语言推理的对齐原理

 

摘要:针对深度神经网络的解释方法近些年逐步成为AI领域的研究热点。已有研究主要针对分类任务,采用标注重要特征的手段对于神经网络模型内部进行解释。本报告主要介绍本组在ACL2021上的最新工作。我们针对自然语言推理任务,面向基于注意力机制的神经网络模型,给出基于短语对齐的解释方法。我们发现这一方法能够有效地对于模型的问题进行解释。同时我们利用解释的结果对于模型进行修正,能够带到效果的显著提升。

 

报告人简介:刘康,中国科学院自动化研究所模式识别国家重点实验室研究员、博士生导师。

研究领域包括自然语言处理、文本信息抽取、知识图谱、问答系统等,同时也涉及模式识别与机器学习方面的基础研究。在自然语言处理、知识工程等领域国际重要会议和期刊发表多篇学术论文,Google Scholar引用9000余次。曾获COLING 2014最佳论文奖、Google Focused Research Award、中国中文信息学会“汉王青年创新一等奖”、中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖、北京市科学技术进步一等奖等多项学术奖励。目前兼任Pattern Recognition期刊的Associate Editor、中国中文信息学会语言与知识计算专委会秘书长等学术职务,入选北京智源人工智能研究院青年科学家,也曾任ACLEMNLPCIKMISWCEACL等国际高水平学术会议(SeniorArea Chair/Senior PC member。并作为项目负责人获得国家自然科金委优秀基青年基金支持。

 

报告3:复杂场景下的事件图谱构建

 

摘要:知识图谱是下一代人工智能的基础设施,是实现可解释人工智能的重要手段。然而,现有知识图谱大都以实体为核心,缺乏事件知识。事件是认知的基本单元,是行业智能应用的基础。随着深度学习的发展,基于深度神经网络的事件抽取方法取得了长足进步,但是将其应用到金融、通信、医疗等复杂场景时,遇到了新的挑战。该报告首先介绍事件图谱构建过程中的基本概念,然后介绍事件知识抽取的最新工作进展,最后介绍实践过程中的经验和体会。

 

报告人简介:陈玉博,博士,中科院自动化所模式识别国家重点实验室副研究员。

研究方向为信息抽取、知识图谱和自然语言处理。在ACLEMNLPCOLINGAAAIIJCAII等国际重要会议和期刊发表学术论文40余篇,参与出版《知识图谱》专著一本,多次获得最佳论文奖(NLP-NABD 2016CCKS 2017CCL 2020CCKS 2020),Google Scholar引用量1800余次。主持国家自然科学基金青年基金项目,参与国家自然科学基金重点项目、973计划子课题、重点研发计划子课题以及多项企业合作科研项目的研发,同时也开发了事件抽取、关系抽取、实体识别等多项工具和软件。目前为中国中文信息学会青年工作委员会执行委员、中国中文信息学会语言与知识计算专委会委员。曾获2018年中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖(个人排名第四)、2019年北京市科学技术进步奖一等奖(个人排名第五),入选第五届中国科协青年人才托举工程。

 

 

报告4:关系抽取能否像事件抽取一样标注触发词?

 

摘要:实体关系抽取是指从自然文本中挖掘给定实体对之间的语义关系。现有的实体关系抽取方法大多都是对输入的句子直接建模,因此,句子中对实体关系抽取贡献小的词将会带来噪声问题。 从事件抽取通过识别事件触发词并对其分类得到事件类型得到启发。在本文中,我们将直接表达句子中两个标注实体之间关系的词或短语叫做关系触发词。我们尝试对ACE2005中文数据集标注关系触发词并定义了相关的标注规则,根据标注结果可将数据集中的句子分为显式类型、省略类型、蕴含类型,它们分别占数据集的55.51%36.93%7.55%。为验证关系触发词的标注对实体关系抽取是否有效,我们首先对ACE2005中文数据集的句子手工标注关系触发词,然后提出一种融合触发词识别特征的实体关系抽取方法。在ACE2005中文数据集上实验的结果显示,在使用预训练BERT得到输入句子的向量表示时,融合关系触发词特征到实体关系抽取模型,模型的F1值从83.75%提升至85.3%,验证了关系触发词的标注对实体关系抽取有效

 

报告人简介:辛欣,北京理工大学,副教授,本科和硕士毕业于清华大学,博士及博士后完成于香港中文大学,入选“2013微软铸星计划”,计算机学会“自然语言处理专业委员会”委员,中文信息学会“语言与知识计算专委会”委员。

主持国家自科基金面上项目、青年项目,北京市自科基金面上项目等。以第一作者在ACLIJCAIAAAICIKMWSDM等会议发表论文十余篇。

 

 

报告5:知识工程自动化:知识生产和融合平台

 

摘要:知识是人工智能的核心命题,网络信息的迅速增长和知识图谱规模化应用需求使得自动化知识生产受到学术和工业界的共同关注。本报告从知识工程研究室研发的大规模中英文跨语言知识图谱XLORE出发,介绍团队近年来在知识工程自动化关键技术研究和平台建设的探索,包括百科知识自动生产及其对领域图谱构建的赋能、多源异构知识融合、及知识获取与推理计算评测等。

 

报告人简介:侯磊,清华大学计算机系知识工程研究室助理研究员,中国中文信息学会语言与知识计算专委会委员。

2016年获得清华大学博士学位(导师李涓子教授),博士期间曾访问比利时鲁汶大学(合作导师Marie-Francine Moens教授)和新加坡国立大学(合作导师蔡达成教授),主要研究方向为网络环境下的知识工程,以第一作者或通信作者在IJCAIAAAIACLEMNLPTOIS等国际顶级学术会议和期刊上发表论文20余篇,曾获国际语义技术联合会议最佳论文奖(2019)、最佳员工论文奖(2014),全国计算语言学大会最佳论文奖(2018)和全国知识图谱与语义计算大会最佳中文论文(2017),担任TKDE、《中国科学》、AAAIACLEMNLP等领域重要国际期刊/会议审稿人。作为项目骨干参与多项国家级、部委级和国际合作项目,与阿里巴巴合作研究的千亿级商品知识图谱的构建与应用项目获钱伟长中文信息处理科学技术一等奖。

 

报告6:基于图的文本分析

 

摘要:大数据中,非结构化的文本数据占80%左右,文本分析旨在从这些非结构化数据中挖掘有价值的知识,具有重要的意义。已有的文本分析的工作将文本看成词袋或者词序列,缺乏对全局的语义关系的建模。随着网络表示学习以及图神经网络模型的广泛应用,我们从一种新的视角处理文本,将文本信息建模成网络,对文本进行分析处理。灵活建模文本中信息之间以及与外部知识的语义关联关系,在一些文本分析任务中如分类,推荐等取得了新的进展。

 

报告人简介:胡琳梅,北京邮电大学计算机学院,副教授。

主要研究方向是自然语言处理和知识图谱。2018年毕业于清华大学,导师是李涓子教授,获得北京市优秀毕业生。主持一项国家自然科学基金青年基金项目,发表高水平论文20余篇包括TKDETOISACLAAAIEMNLP等。2019年获得微软亚研院铸星学者。

  

报告7:基于少样本的关系抽取技术研究

 

报告人简介:刘永彬,博士,南华大学计算机学院副教授,中国计算机学会-自然语言处理专业委员会委员,中文信息学会-语言与知识计算专业委员会委员。

研究方向为自然语言处理和知识图谱,主要研究内容是融合自然语言处理和知识图谱技术,构建领域知识图谱,并应用于医疗大数据、科学大数据和企业智能化信息服务等领域。国际期刊Data Intelligent 编委;多个CCF推荐国际会议PCCOLINGCIKMNLPCC);参与IEEE国际标准《知识图谱架构》和国家标准《信息技术 人工智能 知识图谱技术框架》的制定。

 

报告摘要:现有的关系提取方法大多依赖于大规模注释数据,不能从已有的知识中学习,而且泛化能力较低,因此迫切需要进一步发展few-shot学习方法以解决上述问题。针对目前最常用的CNN模型在序列标记和获取长期依赖方面存在的局限性,我们提出了一种新的模型,将transformer模型集成到一个典型网络中,以实现更强大的关系级特征提取。模型中的transformer直接连接标记以使长序列学习不发生灾难性遗忘,并能够通过对每个单词的多个表示子空间并行学习获得更多增强的语义信息。我们在三个任务上评估了我们的方法,包括域内任务、跨域任务和跨句任务。我们的方法实现了性能和计算之间的平衡,比最先进的模型有约8%的改进。此外,我们的实验也表明,我们的方法在考虑跨域迁移和跨句关系提取时具有较强的竞争力。

 

 

6.主办单位

太阳网集团8722

 

 

线上直播二维码

 


 

微信扫描二维码观看直播