回顾与实体挖掘

Shrutika Narayane Sudipta义理

采矿工程的学生,信息技术部,麻省理工学院,工程学院,Kothrud,印度浦那
教授,信息技术部,麻省理工学院,工程学院,Kothrud,印度浦那

文摘

比较不同的事情在人类决策过程中扮演重要的角色。尽管决策在我们的日常生活中是很常见的,但需要知道应该得到适当的知识和技能比较和选择是什么,做出正确的决定。在本文中,我们审查的背景和国家- - -艺术与实体数据挖掘基于比较的问题。我们首先介绍实体挖掘的一般背景的比较问题,审查相关的阶段,如信息提取和比较器的排名。在每个阶段,我们提供一个相关的背景,讨论技术挑战,审查当前研究中使用的技术阶段。这个调查结论与最新实验结果的讨论研究的文章。

关键字

相比实体采矿;比较器;归纳提取模式;引导算法

介绍

是人的本性,试图比较的东西。笔记本电脑、手机、iphone、汽车等比较多的特性。在决策过程中,比较另类的选择是一个必要的步骤,我们在日常生活中进行。但是它需要熟练的和高知识专长的人。在当今时代每个人都使用万维网(WWW)在线和比较是很明显的事情。例如笔记本电脑网上购物的用户必须有规范的详细知识,如处理器、内存、存储、图形显示、等等。在这种情况下,一个人知识不足变得难以做出一个好的决定完成最好的笔记本电脑根据他/她的需要,也让市场去比较不同的选择。比较问题,比较器有两个主要组件的决策过程。

比较问题:一个问题的目的是比较两个或两个以上的实体中明确提到的问题通过在线用户存档。

比较器:目标实体在一个比较的问题是比较比较实体或称为比较器。

在下面的例子中Q1和Q2不是比较的问题而Q3是比较的问题,“宝马”和“斯柯达”是比较器。

Q1。“哪一个是更好的吗?”

Q2。“宝马的车吗?”

第三季。“更好的carBMW或者斯柯达是哪一辆车?”

这些问题比较的结果将是非常有用的在帮助用户探索即推荐variousalternatives选择提出类似实体的基础上其他先前的在线用户的请求。

发现相关的项目为一个实体的过程类似于推荐系统,为用户推荐商品。推荐系统主要依赖于相似性物品和/或用户日志数据的统计相关性。在文学研究我们可以发现很多文章关注比较器矿业[1],[2],[3],[4]。在我们的论文中,我们试图在他们提出的技术和他们的优点和缺点。

剩下的纸是组织如下。第二节给出一个简短的文献调查,第三部分给出了一个简短回顾信息提取。最新实验结果在第四部分给出了结论在第五部分。

信息提取

IInformation提取(IE)在自然语言处理定位特定的数据文件,从而挖掘结构化和有意义的信息从一个叫做非结构化或半结构化信息提取[5]。一种类型的IE,命名实体识别,包括确定对特定类型的对象的引用等人的名字,公司,和地点。主要有三种方法用于信息提取[6],[7],[8]下面,

1。基于规则的提取:

IE方法之一是自动学习基于模式的提取规则确定每种类型的实体或关系。例如,系统开发的剑杆[9]。表达的模式是一个增强的正则表达式语言;和一个自底向上的关系规则学习者用来从语料库的标注训练例子归纳出规则。归纳逻辑编程(独立)[10]也被用于学习逻辑规则识别短语从文档中提取[11],[12]。

2。基于模式的提取:

模式方法构建基于注释的文本片段(模式),在单词/短语用语言标记信息,例如POS-tag,引理,或句法信息。这些模式匹配语言注释文本检测关系[13]。

3所示。监督式学习:

监督学习是机器学习任务标记的训练数据的推断一个函数。由一组训练数据训练的例子。在监督学习中,每个例子是一对输入对象组成的(通常是一个向量)和所需的输出值(也称为监督信号)。然而,监督培训准确的实体和关系提取器是昂贵的,需要大量的标记训练例子中提取每种类型的实体和关系。由于这个原因,许多研究人员探索semi-supervised学习方法,只使用少量的标签要提取的谓词的例子,以及大量的标记文本[14]。上面所有的信息提取方法可以用于比较方法[2],[3],[4]李傻傻,金达尔和刘在[1],[15]。

答:设计注意事项:

监督比较金达尔提出的采矿方法和刘[1],[15]这是一个比较的基线。它主要关注两个规则提到类顺序规则(CSR) &标签顺序规则(LSR)如下望见。

。类顺序规则(CSR):

这是一个分类规则映射序列模式S (s1, s2。sn)(一个类C . C是比较或非竞争性)。每个企业社会责任与两个参数的支持和信心。

b。标签顺序规则(LSR):

映射一个输入序列模式(s1, s2。。。si。sn)标记序列S (s1, s2。李。sn)更换令牌如果在输入序列与一个指定的标签(李)和这个令牌被称为锚。

金达尔和刘[1]的方法已经被证明是有效的在他们的实验设置。然而,它有一些缺点如下面,

 The Jindal 和 Liu’s 方法的性能主要取决于一套比较句子 [3]. 显示关键字

 Users 可以表达比较句子或问题在许多不同的幅高召回,一个大的带注释的训练语料库是必要的。这是一个昂贵的过程

 CSRs LSRs 介绍 Jindal 和 Liu [15] 大多 POS 标签和 keywords. 的组合这是一个惊喜,他们的规则实现精度高但低召回。

b .弱监督方法比较器矿业:

在提取比较解决冲突问题及其与高精度比较器以及高召回弱监督引导方法引入了李傻傻在[2]。

1。表明提取模式挖掘:

表明提取模式(IEP)是一个连续的模式可用于识别的对比与比较器提取与高可靠性的问题。问题是归类为比较问题如果它匹配一个等电位点和令牌序列对应于这个等电位点提取的比较器槽比较器。如果一个问题matchesmultiple等电位点,最长的IEP使用。因此,而不是手动创建的列表显示关键字,我们自动创建一组等电位点,称为弱监督方法迭代,如图1所示。该算法的两个关键步骤是模式生成和模式评估。

2。模式一代:

弱监督等电位点挖掘是高度基于两个关键假设[3],[16],[17]

 If 顺序模式可以用来提取许多可靠的比较器 pairs, 这很可能是一个 IEP.

 If 一双比较器可以提取 IEP, reliable. 一对

基于这些关键假设,引导算法设计,如图1所示。

李傻傻生成序列模式,在[1]、[3]表面使用文本挖掘方法[2]中引入。在这种方法中,比较器的问题被符号取代美元Cs和比较器对任何给定的比较问题。符号#开始在每个句子的开始和符号#结束最后的句子。李傻傻在[3]中使用了一些启发式规则和短语chuncking多样性减少的序列数据和我的潜在的模式。后三种序列模式可以从生成序列的问题为:

一。词汇模式:

这些模式显示只有文字和符号组成的序列模式($ C #开始,#结束)。

b。广义模式:

词法模式太具体的匹配。所以词汇模式是广义代替一个或多个单词词性标记。

c。专业模式:

POS专业化模式是通过添加标签比较器插槽。例如,从词法模式的< C或C >美元问题的巴黎或伦敦吗?',' < C = NN或C = NN美元吗?>”将成为专业的模式。

注意,在这个方法中,词法模式是用于生成广义模式和组合的一组广义模式和词汇模式用于生成专业模式[1],[3]。

3所示。模式的评估:

引导了很少有可靠的比较器对处于早期阶段。因此发现更可靠的一对的,执行进化操作模式。在这种情况下,价值可能被低估的可能影响区分等电位点和non-reliable模式的有效性。这个问题是由一个有预见性的缓解过程。下一步是为用户的排名可能比较器输入[1],[3]。

c .比较器提取:

采用等电位点,很容易识别的比较问题,从数据收集比较器对。对于给定的问题和一个等电位点,比较器提取过程是[1]中所述,[2],[3],[4]如下:

1。生成的序列比较的问题:

如果这个等电位点是一个没有推广模式,那么标记的问题,导致的令牌的列表顺序。否则,短语chuncking是必要的。了块的顺序列出。

2。检查是否问题匹配给定的序列模式:

如果IEP是一家专业模式,提取的POS标签序列比较器应该遵循指定的约束模式。

然而,[3]的结果比较显示约67%的问题可以匹配到多个模式,从11%的比较问题,我们可以提取不同的比较对。李傻傻在[3],[4]研究了三种不同的策略来解决的问题比较器提取。

d .比较排名:

可比性和基于图的方法研究了排名可能对用户的输入比较器[1],[3],[18]下面描述,

1。Comparability-Based排名方法:

频繁的比较与特定实体的实体将使比较器更有趣。基于这种直觉,一个简单的排名函数Rfreq (c, e)排名比较器的基础上的次数相比比较器c是获得用户的输入e在网上比较档案问问题。

eq。(1)

在哪里(Qc, e)是一组比较器c和e用户输入的问题,可以提炼出一双比较器。这种方法也被称为基于频率的方法。另一个排名函数Rrel结合可靠性估计分数比较器开采阶段

(2)式。

p q、c、e意味着选择的模式从问题中提取比较器对c和e [3]。

2。基于图的排名方法:

频率是考虑作为有效的参数比较排名但frequency-based排名方法[3]可以受苦,当一个用户输入很少发生在收集的问题;例如,假设所有可能的比较器的输入只比较一次问题。在这种情况下,这个方法可能无法正确结果排名结果。因此除了代表能力也应该被考虑。我们把一个comparator代表如果是常用的作为基线时比较感兴趣的实体。

图基于网页排名方法是解决方案的能力。比较器可以被视为有价值的比较器相比,排名,如果是太多的其他重要的比较器包括输入实体。基于这个想法,网页排名算法进行排列比较器对于一个给定的输入实体,结合频率和代表能力[3]。

实验结果

在本节中不同研究论文的实验结果进行比较和讨论。

答:比较问题识别和比较器提取:

最新实验结果比较问题识别和比较器提取为60米问题的数据挖掘从雅虎回答的问题标题字段可以在[4]中找到。李傻傻的实验结果[3]相比,金达尔和刘的[1]方法如表一所示表中,列标识仅显示了性能比较问题识别,提取仅列显示了性能比较器提取时只使用比较问题作为输入,和最后一列显示了端到端性能问题时识别结果中使用比较器提取。

在精度方面,[1]中描述的方法是有竞争力的在[3]方法比较识别问题。然而,此次召回是显著降低比[3]的[1]。在端到端实验中,弱监督的方法[3]表现明显好于[1]的方法。F1-measure[1]的约30%和32%的分数比分别只识别和提取,我们的方法只显示少量的性能下降(大约7 - 8 %)。

b .排名结果Comparability-BasedvsGraph-Based排名方法:

该算法包括三个主要步骤。排名结果的可比性和基于图的排名的方法[3]如表2所示。对于某些查询的比较器的频率明显不同,如“iphone”和“宝马328 i”两种方法的排名结果不要让许多差异。因为频率排名过程中扮演着主要的角色化图形排名这些查询的方法。然而,对于查询的比较器频率相近,如“宝马328 i”、“诺基亚N75”和“尼康D200”两种方法之间的差别是显而易见的。这些实验结果表明基于图形和网页排名的方法都是有效的比较问题识别和比较器提取。

结论

本文调查各种研究文章和当前可用的实验结果,讨论了它们的优缺点。全面对比不同方法基于实验结果为60米的问题。调查后发现小说中描述弱监督方法[1],[2],[3],[4]识别比较问题,同时提取比较器对高精度和高召回。的结果[2],[3],[4]可用于商务搜索或产品推荐系统从用户比较感兴趣。例如,自动建议类似的实体可以帮助用户在比较活动,将有助于更好的购买决定。

表乍一看


表1	表2

数据乍一看

图1

引用

NitinJindal和必应Liu¢识别比较句子文本DocumentsA¢,学报》第29届国际市立图书馆年会在信息检索的研究与发展,244 - 251年,2006页。

李傻傻,Chin-Yew林,年轻的时候的歌,和ZhoujunLi¢可比实体挖掘从比较QuestionsA¢,《计算语言学协会48第14次会议(ACLA¢10),2010年。

李傻傻,Chin-Yew林,年轻的时候的歌,和ZhoujunLi¢可比实体挖掘从比较QuestionsA¢,知识和数据工程,IEEE 25,没有。7,1498 - 1509年,2013页。

LiShasha Chin-Yew林,年轻的歌,和ZhoujunLi,一个¢比较实体MiningA¢,美国专利号8、484、201、2013年7月。

卡利夫·m·伊莱恩和雷蒙德•j•穆尼¢关系学习的模式匹配规则InformationExtractionA¢,诉讼的16 thnational会议11日创新应用的人工智能和人工智能会议(AAAI¢99 / IAAI¢99),页328 - 334,1999。

穆尼j·雷蒙德和RazvanBunescu,¢矿业知识使用信息从文本ExtractionA¢,ACM SIGKDD探索通讯7.1,3 - 10,2005页。

羊毛衫,克莱尔,¢实证方法在信息ExtractionA¢,人工智能杂志,18卷,第79 - 65页,1997年。

Riloff艾伦和罗西琼斯,一个¢学习字典信息提取的多层次BootstrappingA¢,美国第十六次全国会议上人工智能和人工智能会议第十一届创新应用(AAAI¢99 / IAAI¢99),页474 - 479,1999。

卡利夫·m·伊莱恩和雷蒙德•j•穆尼¢自下而上的关系学习的模式匹配规则信息ExtractionA¢,机器学习研究期刊》的研究,4卷,页。177 A¢210,2003。

穆尼j·雷蒙德和Loriene罗伊,¢基于内容的书推荐使用学习文本CategorizationA¢,学报5 thacm数字图书馆会议上,页195¢204,2000。

FreitagDayne,¢向通用学习信息ExtractionA¢,学报》第36届会议协会的计算语言学和科尔- 98 (ACL /科尔- 98),pp.404A¢408,1998。

StephenSoderland,¢学习为半结构化信息提取规则和自由TextA¢,机器学习,34卷,1 - 3号,第272 - 233页,1999年。

Chang Chia-Hui Shao-Chen囡,一个¢IEPAD:信息提取基于模式DiscoveryA¢,学报第十届国际会议上万维网(WWWA¢01),2001年。

卡尔森安德鲁,贾斯汀Betteridge, Richard c . Wang Estevam r . HruschkaJr和汤姆·m·米切尔,一个¢耦合Semi-supervised学习信息ExtractionA¢,学报》第三届ACM国际会议在网络搜索和数据挖掘,101 - 110年,2010页。

刘Nitin金达尔和必应,¢矿业比较句子和RelationsA¢,21国家会议上人工智能(AAAI¢06),22卷,第1331 - 1336页。2006年。

RiloffEllen,一个¢自动生成提取模式未加标签的TextA¢,13国家会议上人工智能,1044 - 1049年,1996页。

RadevDragomir,上海市风扇,洪七,哈里斯吴,AmardeepGrewal,一个¢概率问题回答的WebA¢,美国社会信息科学和技术杂志》上,56岁。6,571 - 583年,2005页。

HaveliwalaH。塔,一个¢主题敏感PagerankA¢,学报第11届国际会议上万维网(WWWA¢02),517 - 526年,2002页。

国际期刊的创新在计算机和通信工程的研究

回顾与实体挖掘

文摘

关键字

介绍

相关工作

信息提取

实验结果

结论

表乍一看

数据乍一看

引用