论文阅读笔记

深度学习相关论文

  1. 机器学习系统,隐藏多少技术债?Hidden Technical Debt in Machine Learning Systems
  2. Mastering the game of Go with deep neural networks and tree search_nature
  3. Human-level control through deep reinforcement
  4. Teaching Machines to Read and Comprehend

其他论文

  1. Personalized Microtopic Recommendation on Microblogs,李洋,TIST
  2. GraphX: Graph Processing in a Distributed Dataflow Framework
  3. An Experimental Comparison of Pregel-like Graph Processing Systems

事理图谱写作相关思考

  • Title : Another Commonsense Knowledge Base: EventNet
  • 构建事理图谱需要解决的问题:
  • 如何精确定义事件顺承关系,事件因果关系?
  • 如何检测两个事件之间是否有关系?如果有关系,是属于顺承还是属于因果?
  • 如何判断多个事件之间的顺承,因果依赖次序?
  • 事理图谱的应用

事理图谱(EventNet)调研工作:

  1. Diamonds in the Rough: Event Extraction from Imperfect Microblog Data 2015 NAACL

    地震事件抽取,CRF序列标注模型,20个事件参数

    为了克服微博数据的不准确和短文本造成的模棱两可特点(会给评估和系统开发造成困难),使用了两个方法:approximate(模糊匹配) distant supervision和feature aggregation(聚合多条微博数据的特征)来解决这两个问题。

    公开了地震数据集,来自维基百科和tweet.

    提出了一个新颖的评估方法(Lenient evaluation),更适合于这种不十分精确的实验结果评估。

    distant supervision方法用于自动构造训练数据,不用手工标注训练数据,值得注意这种方法的使用。

    使用的是非结构化,信息繁杂的微博数据,而不是干净整洁的新闻报道数据。

    当时这篇论文看的不仔细,CRF具体如何用于实验当中,还得细看。

  2. An Overview of Event Extraction from Text 2011
    2011年以前的事件抽取综述

    主要介绍了3类方法:数据驱动的方法,基于专家知识的模板匹配方法,杂交方法

    表格列出了论文参考文献中的方法,比较了各类方法的优缺点。

    当时本文都是基于干净的在线新闻文本做事件抽取,很少在微博这种短小不精确的文本上做事件抽取。

  3. Cross-document Event Extraction and Tracking-Task, Evaluation, Techniques and Challenges_RANLP2009

    跨文档的事件链条构建,以人名为中心词,跨文档事件聚合,融入背景知识的时间参数纠正,并按照时间排序各个事件。

    介绍了ACE任务中的名词术语和工作目标。提出了跨文档事件抽取的任务,融入了背景知识(相关文档和维基百科数据)来纠正事件参数(时间),并且提出了新的评价方法(Browshing cost,tempotal correlation),最后构建了一个以单文档事件抽取为基础的跨文档事件抽取系统。

    需要详细了解ACE任务:Automatic Content Extraction, 引用量最高的论文。

  4. SenticNet 3: A Common and Common-Sense Knowledge Base for Cognition-Driven Sentiment Analysis 2014 AAAI

    是一个情感极性分析,观点挖掘的知识库。结合预处理,语义分析,观点目标词检测,能够组成一个完整的认知驱动的观点挖掘系统。

    现在有三个版本,公开了数据资源,用xml格式存储,数据库支持。

    energy flow能量子流动,情感分类模型:Hourglass of Emotions,RDF-XML数据库存储,SBoCs。

    情感极性分类:

    1. keyword spotting
    2. lexical affinity
    3. statistical methods
    4. concept-level approaches
    

    公共知识库:
    DBPedia,Freebase,YAGO,WiKipedia,NELL,Probase.

    常识知识库:
    Cyc,Open Mind Commom Sense(OMCS),ConceptNet,WordNet,WNA.

    UK-national health service(NHS),PatientOpinion,英国公共医疗服务评价。

  5. Towards a Chinese Common and Common Sense Knowledge Base for Sentiment Analysis LNAI 2012

    先分析了互联网上中文使用者和数据量将超越英文,然后说了构建中文情感分析知识库的必要性。

    混合Probase and ConceptNet来构建情感分析知识库,然后运用机器翻译方法(模糊匹配)将其翻译为中文。
    短文

    没有做evaluation。Conclusion写的很好。

  6. Isanette: A Common and Common Sense Knowledge Base for Opinion Mining 2011 ICDM_wordshop

    混合Probase and ConceptNet来构建情感分析(观点挖掘)知识库,并解决了两个问题:1,多个词表示同一个意思(这个很有启发,事理图谱也会遇到同样的问题)2,降低数据的稀疏性,并用降维技术检测了含有的否定形式。

    最终知识库的形式:

    a matrix 340,000 × 200,000 whose rows are instances such as ‘birthday party’ and ‘china’, whose columns are concepts like ‘special occasion’ and ‘country’, and whose values indicate truth values of assertions.
    

    然后利用该知识库做reasoning和opinion mining:

    reasoning:1将知识库用向量空间进行表示(Vector Space Representation),2进行
    语义聚类(Semantic Clustering)

    opinion mining:1观点挖掘引擎(Opinion Mining Engine),2评价(Evaluation)

    结论:混合Probase and ConceptNet构建了开放领域的知识库,可以有效进行reasoning,进而完成观点挖掘,
    情感分析,文本自动分类等任务。

    好像没有开放资源:Isanette。
    利用该知识库做reasoning和opinion mining的部分有待细读。

  7. A Survey on Truth Discovery SIGKDD,韩家炜

    有待精读。

    任务定义:
    principle:
    input:
    output:
    data:

  8. 中文社交媒体谣言统计语义分析_rumor2015,中国科学,刘知远,张乐,涂存超

    微博谣言影响力,产生与消亡的特点,谣言分类,时序分析,自动辟谣框架(贝叶斯公式,专家发现)

    具体专家发现方法见2012年的草考文献17

  9. 知识表示学习研究进展 刘知远,计算机研究与发展,2015

    知识表示学习简介:基本概念(独热表示,大量相关研究),理论基础(模拟人类大脑,多个突触状态表示复杂知识),典型应用,主要优点(相似度计算效率高,有效缓解数据稀疏,异质信息融合)

    知识表示学习主要方法:
    距离模型:SE
    单层神经网络模型:SLM
    能量模型:SME
    双线性模型:LFM,效果较好
    张量神经网络模型:NTN
    矩阵分解模型:与LFM思想类似,具有长处
    翻译模型:TransE,主流模型
    其他模型:全息表示模型

    主要挑战与已有解决方案:
    复杂关系建模:多个针对transE的改进方案
    多源信息融合:
    关系路径建模:多条路径推理

    未来研究方向展望:
    面向不同知识类型的知识表示学习
    多源信息融合的知识表示学习
    考虑复杂推理模式的知识表示学习
    其他研究方向:面向大规模知识库的在线学习和快速学习,知识分布式表示的应用

    启发idea:词向量为什么必须是同一维度的?复杂向量维度长,简单向量维度短。是否有一种度量方法可以有效度量不同维度文本之间的相似性-是否仍可以采用余弦相似度?

    science-认知科学研究成果将知识类型分为四类:树状关系(生物分类系统),二维网格关系(地理位置),单维顺序关系(偏序关系),有向网络关系(关联或因果关系)
    事理图谱是否是专门面向第四种知识类型的知识库?

  10. The Weltmodell: A Data-Driven Commonsense Knowledge Base,2014,短文,德国
    大数据驱动的常识知识库

    知识获取:

    所使用数据集,事实抽取方法,互信息计算,相似度计算(concept,statement),知识库构建结果。

    展示:web

    前景与展望:

    改进事实抽取模块,集成外部知识库,增加可视化展示选项,加入用户反馈。

    需要改进的:事实消歧,知识库补全,常识推理-不仅仅实现尝试推理,而且让人可以理解推理过程

  11. A Dataset of Syntactic-Ngrams over Time from a Very Large Corpus of English Books,2013,google

    介绍了谷歌的公布的一个Syntactic-Ngrams语料库,这个语料库体积非常大,适合用来做各种nlp任务。

  12. Verb Pattern: A Probabilistic Semantic Representation on Verbs,2016AAAI,复旦大学GBM lab,cuiwanyun

    本工作针对英语动词的一词多义现象进行研究,提出了一种动词一词多义现象的表示方法:抽象出动词搭配的概念和特定搭配两种形式作为动词一词多义的表示。
    动词:概念
    动词:特定搭配
    训练语料用的就是上面谷歌公布的Syntactic-Ngrams语料以及Probase知识库。

  13. KRAKEN: N-ary Facts in Open Information Extraction,Weltmodell作者,NAACL,2012

    提出了一个开放信息抽取系统,可以抽取多元知识,知识的完整性更好,准确率更高,每句话知识抽取率更高。
    基于传统的分词,词性标注,句法依存分析,然后提出一个规则集合来抽取知识。 对噪声数据(语法不合规则)抽取质量不高,因为依存分析的准确率会下降。

  1. Learning from the Web: Extracting General World Knowledge from Noisy Text,AAAI,2010

    本工作对于构建事理图谱是一个很好的借鉴。

    USA罗切斯特大学,从大规模网页博客和维基百科数据中抽取常识知识,是一个系列工作,从2001年到2012年一直在做的一个工作。
    开发了一个英文常识知识抽取系统:Knext。
    本文定义了常识知识的形式:

    Information extraction efforts, e. g. Banko et al. (2007), have focused on learning facts about specific entities, such as that Alan Turing died in 1954 or that the capital of Bahrain is Manama. Knowledge bases of such facts are quite useful, but getting to human-level AI seems to depend less on this specific knowledge than it does on the most basic world knowledge – our commonsense un- derstanding of the world.

    for the Wikipedia sentence “The emperor was succeeded by his son, Akihito”, what we seek to (and do) learn is that ‘AN EMPEROR MAY BE SUCCEED -ED BY A SON’ and ‘A MALE MAY HAVE A SON’ – not the specific information about Emperor Sho ̄wa and his son. Thus, hav- ing been written as a repository of information, which most weblogs are not, is not a clear advantage for Wikipedia as a resource for extracting background knowledge.

本文回到了四个问题:

    随着输入语料的不断增加,抽取到的知识量也在不断增加
    尽管博客和维基百科数据质量不同,抽取到的知识质量却大致相同
    对抽取到的原始知识进行规则过滤,可以大幅度提高知识质量
    从博客和维基百科抽取到的常识知识互相的覆盖率很小,尽管随着数据规模增加覆盖率也在不断缓慢增加

本文还提供了一个可借鉴的知识库评价方法:
手工评价,随机抽取一定量的知识,将每一条知识根据一定的标准评价为5个分值,然后计算平均得分来衡量知识的质量。

一个有用的考虑:对于超大规模的数据来说,知识抽取更加注重准确率,而不是recall。

最后一点:论文并没有说明所构建的知识库在实际AI系统当中的用处,所以我们应该注重事理图谱在工业中的应用价值,而不仅仅是想当然构建出一个玩物知识库。
  1. Learning Textual Graph Patterns to Detect Causal Event Relations,AAAI,2010

    事件因果关系检测,提出了一种新的特征模板,利用SVM作为分类器,打败了前一个代表性工作的实验结果。

    数据集已经标注好了两个事件之间是否有因果关系,且整个数据集只有1000条,对事理图谱构建帮助不大。

  2. Mining Commonsense Knowledge From Personal Stories in Internet Weblogs,AKBC,2010

  3. Commonsense Causal Reasoning Using Millions of Personal Stories,AAAI,2011

  4. Open-domain Commonsense Reasoning Using Discourse Relations from a Corpus of Weblog Stories,NAACL,2010

  5. Choice of Plausible Alternatives: An Evaluation of Commonsense Causal Reasoning,AAAI,2011

  6. Automatic Knowledge Base Construction using Probabilistic Extraction, Deductive Reasoning, and Human Feedback, 2012,AKBC

  7. Automatic Construction of Inference-Supporting Knowledge Bases,AKBC,2014,best paper

  8. KELVIN: a tool for automated knowledge base construction,NAACL,2013

  9. Advances in Automated Knowledge Base Construction,2013,AKBC

  10. Deep Learning for Event-Driven Stock Prediction,dingxiao,IJCAI,2015

  11. Using Structured Events to Predict Stock Price Movement: An Empirical Investigation,dingxiao EMNLP,2014

  12. Mining the Web to Predict Future Events,WSDM,2013,Kira Radinsky

  13. Learning Causality for News Events Prediction,WWW,2012,Kira Radinsky

    非常重要:

    用因果模板构建因果关系对作为训练数据,构建因果事件图谱,实现事件泛化

    用多种评价方法从多个角度对事件预测模型进行了评价。需要人工评价

  14. 因果关系及其在社会媒体上的应用研究综述,赵森栋,2014

    因果分类:常识因果,浅层因果,深层因果

    重要问题:学习词或短语语义之间的逻辑关系(尤其是 因果关系)进而表示成知识库的形式,与不断地优化因果抽取算法相比更有意义.

    本质因果推断的三类方法:

    1.随机对照实验
    2.准实验设计方法
    3.联合模型方法:图模型和虚拟事实模型
    

    问题与挑战:

    因果对识别:模板匹配和规则(常识因果)
    因果模型的适用性-泛化能力
    客观的评价指标
    社会媒体上的因果分析-值得做
    

    未来研究方向:社会媒体上的因果知识的识别和抽取,基于因果图模型的应用研究(贝叶斯网络)

    1.理论创新:
    2.社会媒体上的应用:因果分析,基于因果知识的预测和推理
    
  15. Event causality extraction based on connectives analysis,赵森栋,2015,neurocomputing

    这是森栋师兄的第二个工作,从单个句子中抽取因果关系。第一步是识别句子内的因果单元,第二步确定两个单元之间有无因果关系,以及因果关系的方向。
    创新之处在于1.引入了一个新的因果关联类别特征特征,2.提出了一个新的模型Hidden Naive Bayes model,可以识别特征之间的互相作用关系,降低过拟合。

  16. 事件常识的获取方法研究,王亚,曹存根,计算机科学,2015

    事件分类,框架表示,事件常识知识获取,事件公理获取,与FrameNet的比较。
    整个工作都是基于手工标注的,耗费大量人力物力。
    需要一个自动事件挖掘系统来挖掘相应的事件常识。

  17. 微博知识图谱构建方法研究,杜亚军,2015,西华大学

    本文是对知识图谱构建的一个很好的综述文章,相关研究描述的很清楚。尤其写明了知识图谱的评价方法。
    [62],[63],[64],[65],[66],[67]
    提出了微博知识图谱构建需要解决什么问题,但是并没有给出任何解决方案。但是本文提出的问题也是消费事理图谱构建的
    面临的问题,所以十分具有借鉴意义。
    概念对象:人物,事物,地点,事件,话题
    概念、关系重复,一词多义,同义扩展,多义扩展,知识图谱的更新
    分析:part3.4
    应用:part3.5

  18. 基于层叠条件随机场的事件因果关系抽取*,PR & AI,付 剑 锋

    重要参考文献:[15]。
    这篇文章的借鉴意义也很大,利用CRF建模事件之间的关系。可以作为消费事理图谱构建的一个可选方法。
    需要标注语料,标注事件之间的关系。但是本文没有进行事件抽取,标注好事件以及因果关系,然后进行因果关系识别。
    本文也定义了事件的概念。这里的事件只是一个事件触发词。

  19. 从大规模web语料中获取常识语料,朱耀,曹存根,2008

  1. 事件时序关系建模的研究与实现,张绍臣,2009

    文景转换:参考文献

    国内外很多项目已经对文景转换进行了研究,AT&T 实验室研究开发的
    WordsEye 系统[1],能够根据简单的文本描述,通过对含有几千个三维图形
    的模型库查找,生成静态的三维图像;隆德大学开发的 CarSim 系统能够处
    理交通领域的真实事故报告,生成交通事故报告描述的动态场景[2],具有很
    高的实用价值;我国中科院陆汝钤院士带领开发的“天鹅”系统[3]实现中文
    故事到动画片,全自动辅助动画的自动生成。

    几年来哈尔滨工业大学机器智能与翻译实验室在文景转换方面也取得了一些成果,尤其在三维空间物体摆放以及基于文本到动画的生成都有所收获[4]。

    常识的定义和ConceptNet
    事件的定义和相关研究:事件=表示事件的动词+动词的受事者。open,开,防晒
    事件时序关系的分类和相关研究:TimeML 和 ACE 分别对时序关系进行了不同的分类。

    本研究使用 TimeBank 1.2 语料 182 篇文章。在本文的后续研究中使用到
    Evita 来识别事件和 Classifier,BLinker 来识别和提取事件的时序关系。在
    后边的章节中会对这几个工具进行进一步的说明。

    ACE 对时序关系的定义,主要集中在事件与时间表达式的关系,很少
    涉及事件与事件之间的时序关系,而且多数关系相互区别度不高,主要依靠
    是否存在明显的标记来区分不同的时序关系。

    综合 TimeML 和 ACE 对时序关系的定义,将区别度很小的不同时序关
    系 进 行 归 类 , 得 到 本 课 题 定 义 的 3 类 时 序 关 系 : Before , After ,Simultaneous,分别表示两个事件之间发生的“前”,“后”和同时发生的时序关系。

事件的识别(动词名词)和抽取(受事者抽取):

事件合并:(完全相同的事件和相似事件,事件相似度计算方法)

待解决的问题:
中文处理
受事者提取
高频噪音事件节点删除
评测方法
  1. 事件时序关系识别的研究与实现,孙辉,2010

    本课题中中文研究现状以及分析部分特别有帮助,需要找到相关论文来看。

    事件关系抽取是该项目的主要研究内容,而事件时序关系作为事件关系的
    一种,旨在研究事件在时间上的先后顺序关系。本研究课题希望通过结合计算
    语言学知识与统计机器学习方法,搭建事件时序关系机器自动识别平台。

    本研究课题以英文为语言基础,以事件时序关系作为研究内容,将事件时
    序关系知识库作为语义资源,以搭建事件时序关系识别模型作为研究目的。

(1)应对事件时序关系识别模型的特征空间进一步细化。本研究只对每个
特征对模型的影响给出评价,并未考虑特征组合对模型的影响。 
(2)用统计机器学习方法搭建基于中文的事件时序关系识别模型。 
(3)本研究用 VerbNet 词汇资源搭建句法框架构造规则进行事件受事者识
别,效果不是很理想,可以考虑用基于统计机器学习的方法构造识别模型。

Evita(Events in text Analyzer)是 ARDA 资助的 TARSQI 研究框架下的事件识
别工具
[27]
。Evita 作为 TTK(Tarsqi Toolkit)工具包中的一个组件,它主要用来
进行事件识别和事件关联语法特征分且没有应用领域的限制,只需在事件标注
前用 AlembicWorkbench 标注器和 Chunker 工具对文本进行词性标注和 Chunk
预处理。Evita 的识别性能达到 80.12%的 F-measure。

如果不是动词性事件,直接断定事件受事者为空。 

从表 4-2 中可以看出,该模块的平均准确率为 57.00%。性能低下的原因在
于 VerbNet 句法框架的匹配率很低,Wiki 中编写者多用复杂句,而 VerbNet 中
的句法框架则是根据简单句建立起来的,这用情况下的事件受事者很难提取。

学者们一般将基于本体的语义相似度计算方法划分为 4 类[31]:基于距离的
语义相似度计算(Edge  Counting  Measures)、基于内容的语义相似度计算
(Information Content Measures)、基于属性点的语义相似度计算(Feature-based 
Measures)和混合式语义相似度计算(Hybrid Measures)。
  1. 基于语义依存线索的事件关系识别方法研究,马彬 洪宇† 杨雪蓉 姚建民 朱巧明,2013

    话题检测与跟踪,事件关系识别,具有参考价值
    还没看完

  2. BUEES: a Bottom-Up Event Extraction System,Xiao Ding

    包含两个工作:
    First:事件类型自动抽取。动词细分类。 Trigger抽取,Clustering,Filter。
    Second:事件arguments抽取。

  3. Building Chinese Event Type Paradigm Based on Trigger Clustering,Xiao Ding

    本文工作包含在上一篇论文中,是BUEES的一个子工作。

  4. ZORE: A Syntax-based System for Chinese Open Relation Extraction

    关系抽取,弱动词结构的提取。
    关系抽取的候选:三种类型。
    语法语义模板匹配。
    LR置信度结果过滤。
    跟事件抽取本质是不一样的,事件抽取要有事件触发词。关系抽取关注两个NP之间的关系,最少要有两个NP结构。或者更多的NP结构则称为
    N-ary facts。

  5. Rule-based Information Extraction is Dead! Long Live Rule-based Information Extraction Systems!,IBM,EMNLP,2013

    在学术界和工业界使用rule_based方法差异很大,主要在于两个社区的的评价指标存在巨大差异:方法是否耗时费力的定义有所不同,所耗费的软件硬件资源学术界一般不报告。作者很担心在大数据信息抽取时代这种gap会越来越扩大,最终对两个社区都没有好处,最后提出了3个设想来缓解这种gap。

    最后作者提出的方法还没认真看。

  6. A Domain-independent Rule-based Framework for Event Extraction,University of Arizona, Tucson, AZ, USA,
    IJCNLP,2015

    构建了一个领域独立的基于规则的开源事件抽取框架,有web界面,可视化匹配结果。
    可以基于api编写抽取规则。

  7. Storybase: Towards Building a Knowledge Base for News Events,The Pennsylvania State University
    University Park, PA 16802, USA, ACL IJCNLP 2015

    写作的参考论文。
    这篇论文构建新闻事件的知识库,提供了检索界面。
    本文结构可以作为很好的参考,还有图形图标的绘制。
    参考价值较大。
    related work列出的几篇参考文献值得看看。

  8. MPQA 3.0: An Entity/Event-Level Sentiment Corpus,Lingjia Deng,Intelligent Systems Program , University of Pittsburgh,NAACL,2015

    MPQA是一个知识库,从实体,事件层次上来构建一个情感分析知识库。文本介绍了在MPQA2.0的基础上添加此信息的标注体系。
    并分析了该知识库对于情感分析的作用。

  9. Research on Event Prediction Algorithm Based on Event Sequence Semantic, 西北大学,2009,FSKD

    该研究质量比较低

  10. Liu Ting et al. - 2007 - Subdividing verbs to improve syntactic parsing,电子学报

    最大熵模型实现动词细分类:8个类别。
    然后细分类结果用于句法分析任务,发现动词细分类可以提高句法分析的性能。
    2007年马金山,早期工作,需要找实验室车老师,或者哪位师兄问一问相关工作的实现。

  11. The Annotation of Event Schema in Chinese,北语,杨尔宏老师。

    中文事件标注体系。
    参考价值不大。

  12. Using Textual Patterns to Learn Expected Event Frequencies, Jonathan Gordon,Department of Computer Science University of Rochester Rochester,2012, AKBC

    从文本中匹配获取常识事件发生的频率。

  1. Web mining for event-based commonsense knowledge using lexico-syntactic pattern matching and semantic role labeling, Expert Systems with Applications journal,2010, taiwan

    构造query,输入搜索引擎,处理返回的文本。
    常识事件的定义和我们不同。
    更像自动构造的concept net。
    典型事件比如:Dog Eat Foods。

  2. Ranking Multidocument Event Descriptions for Building Thematic Timelines, coling 2014,法国

文章目录
  1. 1. 深度学习相关论文
  2. 2. 其他论文
  3. 3. 事理图谱写作相关思考
  4. 4. 事理图谱(EventNet)调研工作: