唐杰清华 清华大学副教授唐杰博士讲授“结合社会背景和领域知识的实体识别”

2017-06-05
字体:
浏览:
文章简介:本网讯(新闻中心通讯员 李嘉树)清华大学副教授.博导唐杰博士日前应邀在安徽大学计算机科学与技术学院讲授"结合社会背景和领域知识的实体识别"的

本网讯(新闻中心通讯员 李嘉树)清华大学副教授、博导唐杰博士日前应邀在安徽大学计算机科学与技术学院讲授"结合社会背景和领域知识的实体识别"的报告。报告会由计算机科学与技术学院汤进副院长主持。

唐杰介绍了知识库对文档进行实体识别这一个基础问题,然后提出了在社会媒体和生物医学等领域短文本的处理所面临的挑战性、大概念空间和实例歧义是需要解决的关键问题、如何有效得利用社交关系以及领域知识解决实例歧义等问题。他认为,大部分文本是在一定的社会背景下,由共同的用户通过回复、引用等社会交互创建的,而这些社会背景在实例识别的文献中经常被忽略。

报告中,唐杰还介绍了一个新的概率模型SOCINST来解决上述问题。给定一批短文本的集合,如论文摘要,这些文档的作者之间存在联系。SOCINST模型能够自动地为每个实例构建出子主题,每个子主题表示该实例所可能具有的某种含义。

该模型还可以结合用户间的社会关系来帮助构建社会背景。并且进一步使用狄利克雷树分布将领域知识引入模型。在三个不同数据集上对模型性能进行了评估,结果也表明该模型的识别精度高于其他对比模型( 5.3%~ 26.6%)。

唐杰,清华大学计算机系副教授。主要研究兴趣包括:社会网络分析、数据挖掘和机器学习。