Issn online (2320-9801) print (2320-9798)
m . Hanumanthappa1Deepa T. Nagalavi2和马尼什·库马尔3.
|
相关文章Pubmed,谷歌学者 |
浏览更多相关文章国际计算机与通信工程创新研究杂志
信息检索是指从电子报纸中检索相关的、有用的信息。电子报纸是传统报纸的电子复制品。电子报纸正变得越来越受欢迎,因为访问它们容易和方便。报纸是及时信息的来源。这些文件包括新闻和几篇独立的信息文章。同样有趣的是,许多报纸从不同角度报道同一主题的新闻。在这个快速发展的时代,阅读多份报纸是不可能的。因此,在不影响新闻结构和格式的情况下,快速总结从不同报纸收集的文章并以紧凑和简洁的方式呈现给读者是至关重要的。实现此任务的系统应该解析PDF格式的电子报纸,并将其转换为文本格式。其次,应用数据挖掘技术识别和总结来自不同报纸的文章。 This survey, focuses on article identification methods and popular extraction tools used for extracting the contents of e-newspapers for conversion from PDF to text format. A comparative study on extraction tools based on the source type, programming language and working characteristics is also presented.
关键字 |
||||
PDF,文章,电子报纸,图聚类,信息提取 | ||||
介绍 |
||||
信息检索(Information Retrieval, IR)是查找满足用户信息需求的相关信息或文档的活动。由于数据量大,需要进行信息检索。传统的红外技术由于数据量大,效率不高,因此需要红外系统。与印刷版报纸相比,电子报纸被广泛阅读,因为它们不受地理限制。在整个互联网上,有许多电子报纸,其中包括许多独立的新闻文章。从各种电子报纸中检索相关信息是一项艰巨的任务。信息检索研究的重点是报纸自然语言的检索。 | ||||
电子报纸是指以电子方式出版的报纸。它们可以采取在互联网上发布的普通印刷出版物的形式。在当今时代,电子报纸发挥着重要作用,提供时事信息,使读者了解最新情况;它在满足众多用户的信息需求方面也起着举足轻重的作用。报纸的版面通常是由几篇独立的文章组成的,这些文章以专栏的形式散布在整个版面上。识别特定的文章对于人类来说是一个相对容易的任务,他们可以通过视觉检查来完成,但是对于计算机来说这是一个难题,因为电子报纸的布局不是标准化的,几何上也很简单,而且以前解决这个问题的方法也不是很强大。数据挖掘技术可以有效地从电子报纸中识别和提取单个新闻条目;然后在数据挖掘过程中利用新闻条目来检索相关信息。 | ||||
数据挖掘是从存储在数据库、数据仓库或其他数据存储库中的大量数据中发现有趣知识的过程。数据挖掘已被广泛地视为数据库中知识发现的同义词。在文献中,各种数据挖掘技术已经应用于从电子报纸中挖掘文章,如聚类和分类技术。聚类过程包括将每个块聚合为块集(簇)。聚类方法:基于报纸的文本内容,采用k -均值、聚类和遗传算法对文章进行聚类。在确定文章的文本内容之前,报纸必须转换为文本格式,因为电子报纸基本上是PDF格式的文档。因此,可以使用PDF提取工具将PDF文档转换为文本文件。 | ||||
可移植文档格式(PDF)是一种独立于平台的文件格式,它包装了许多类型的数据,如图像、文本、字体、表格等等。PDF文档可以用PDF查看器在任何计算机上查看。由于PDF文件的结构决定了数据的组织结构,因此无法对文档的内容进行编辑。PDF文件的文件结构由标题、正文、交叉引用表和结尾组成。标题包含PDF文件的版本号,正文是PDF文件的主体部分,存储所有类型的对象,交叉引用表存储在正文部分中每个对象的位置,尾部记录了交叉引用表的地址。PDF文件的文档结构可以表示为由多个对象组成的树状模型,即每个节点都属于对象。树形结构使PDF文档更加安全。由于pdf的安全性和包装特性,对象的提取成为一项困难的任务。 | ||||
电子报纸文章识别与检索的信息检索系统面临的研究挑战如下: | ||||
•位置:从文档中识别相关文本的位置,以提取信息。 | ||||
•获取和分析:新闻文章的布局不是对称的,因此提取相关材料,对专栏进行分类和聚类是一项困难的任务。对内部和横向关系的自动识别和推导,特别是对正在构建中的规则。 | ||||
•词汇不匹配:相同的信息用不同的词汇表来表示。 | ||||
•语义分析:如果发生了非常重要的事情,新闻占据报纸的不止一页,而且每一页上都有几篇相关的文章。 | ||||
•重复:取自不同电子报纸的文章要么接近重复,要么完全重复。这个估计还没有包括语义重复。 | ||||
•文档的异质性:电子报纸中的内容本质上是异质性的,即除了文本之外,它们可能包含图像、表格和基于内容的图像。 | ||||
该工作主要分为两个阶段,一是从PDF格式的电子报纸中提取文本,二是从电子报纸中识别和提取文章。本文探讨了不同的数据挖掘技术,即分类和聚类,以自动识别和提取电子报纸中的文章。此外,还调查了将PDF格式的电子报纸转换为文本格式的容易获得的信息提取工具。 | ||||
文献综述 |
||||
信息检索系统提供了从电子报纸中检索新闻项目的设施。电子报纸是由几篇独立的、信息丰富的文章组成的文件,这些文章分散在整个页面的专栏中。文档对象的特征是它的边界框、它在页面中的位置和它的内容。在文献中,不同的技术被应用于识别报纸上的文章。 | ||||
Aiello和Pegoretti在b[14];研究报纸页面文章聚类问题的文本处理技术,即识别属于同一篇文章的文本块。他们提出了三种基于文本处理的算法,即简单聚类、比较聚类和聚集聚类,这些算法被称为图聚类算法。文章对象表示为图的节点,称为连接图。一条边表示两个对象属于同一个集群。所有的算法都是从一个图开始的,每个文档对象有一个节点,没有边。每一步都要向图中添加一条或多条边。在算法的每个迭代步骤中,每个连通子图代表文章的一部分。算法的输出是图,其中每个完全连接的组件代表一个簇,即一篇完整的文章。在这三种变体中,相似度阈值是固定的。 | ||||
相似阈值是两个块之间的相似度,它由两个块的权重向量之间的夹角的余弦表示。在简单聚类算法(SCA)中,通过查看相似矩阵来设置连接图中的边。对于每个元素,如果值高于阈值,则图中有一条边。而在比较聚类算法(CCA)中,添加边的过程是迭代的,并且考虑图中每一步存在的边。CCA算法首先搜索更相似的块,然后比较部分形成的块簇,然后添加新边。聚类算法(ACA)是对比较聚类背后的动机的扩展。当发现两个非常相似的块时,这两个块不仅通过一条边连接起来,而且合并成一个块。这意味着在合并之后,需要重新计算所有块的权重。 | ||||
通过建立三个不同函数(精度,召回率和分布)的加权调和平均值来评估聚类算法,这些函数是通过比较真实图和输出图来计算的。每一页的基本事实是,每一篇文章都是一个小集团。随后作者比较了三种算法的性能,确定简单聚类算法有两个主要优点:简单和高效。 | ||||
相对于简单聚类算法,比较聚类算法只增加了少量的复杂度;排除连接图中的一些边应该会提高边集的正确性,但可能会损失找到的部分边。最后,凝聚聚类算法可以提高正确性和完整性,但有一个明显的缺点:它比其他两种算法慢,因为它必须多次重新计算所有权重和相似矩阵。而去除停用词后的简单聚类算法具有较高的性能和较低的计算复杂度。 | ||||
R. Beretta, L. Laura在ground-truth图方法[13]的基础上,提出了一种利用图聚类技术评估报纸文章识别算法的方法。将报纸文章识别问题简化为一个特定的图聚类问题,即将报纸页面转化为一个图,其中每个块是一个节点,属于同一篇文章的所有节点连接在一起。因此,使用适当的覆盖和性能度量来评估算法,这些度量侧重于簇内密度和簇外稀疏性,即评估倾向于形成大多数边缘从簇到簇的簇的算法。 | ||||
图聚类的覆盖率是簇内边在完整边集中的比例,性能计算图中正确解释的节点对的数量。所提出的方法可以很容易地区分不同的错误:这些措施奖励对几个块的较大文章的正确检测。此外,反向约简意味着将图聚类算法转变为一个完整的工作报纸文章识别算法。一种方法允许区分不同程度的错误,这取决于错误识别的文章块的数量。 | ||||
高良才,唐智,林晓燕,王永涛b[13]利用二部模型恢复文章阅读顺序。二部图模型由两个顶点组成,一个是前导点,另一个是后继点,这符合二部图匹配。顶点是页面内的块,作为图边的所有块的读取顺序以及边权之间的读取转移概率。 | ||||
文档的常见约束是读取顺序总是从上到下和从左到右的方向。在选择语言可移植块之前,他们首先通过空间拓扑分析找到空间上可接受的阅读顺序。通过融合文本内容、词性、位置、风格等多个来源计算文本块之间的阅读过渡分数,然后采用经典的Kuhn-Munkres算法对图进行最优匹配,即与最大权重匹配。根据页面上所有块的阅读顺序,文章聚合是将阅读序列分割成子序列并将它们合并成文章。 | ||||
许多不同的报纸文章重复地包含关于同一事件的重复信息,但在语言的选择上有所不同,有时从不同的角度来看。Martina Naughton, Nicholas Kushmerick和Joe Carthy在[16]的工作中着重于合并来自多个来源的事件描述,以提供一个结合每个来源的信息的简明描述。该问题被分解为三个子问题:(1)注释:识别文章中与所提到的各种事件相对应的文本跨度;(2)匹配:识别不同文章中涉及同一事件的事件描述;(3)聚合:将事件描述转换成结构化的形式,以便合并成连贯的摘要。聚类技术的使用是根据事件自动对句子进行分组。 | ||||
用平均链接、完全链接和单链接聚合聚类生成句子聚类。层次聚合聚类(HAC)过程从每个数据点到单个集群开始,然后重复合并集群,直到不再有非集群元素。HAC聚类方法需要两个句子之间的相似度度量。标准余弦度量用于每个句子的单词袋编码,其中所有停止词都被删除。作者开发了术语频率和逆文档频率(TFIDF)之类的加权方案,其中文档被定义为讨论给定事件的句子集,然后根据它们在文档中的频率与整个语料库进行比较来对术语进行加权。但有一种方法没有使用加权这个术语。 | ||||
ad . Thakare, N. Muthiyan, D. Nangade, D. Patil, M. Patil等教授提出了一种利用遗传算法(GA)的能力形成新闻文章聚类的系统。该方法是利用遗传算法从知识库中发现潜在的和隐藏的知识,用于新闻文章的决策文档聚类。报纸文章将被分组到不同的领域,如商业,经济,政治,体育,娱乐,社会,环境等根据关键字的相似度使用算法。该系统包含一组报纸文章,并根据关键词的相似度将文章聚类到不同的域。遗传算法对可能的目标群执行相同的操作,只有那些更适合解决方案的目标存活下来。 | ||||
遗传算法由四个要素组成:第一个要素是染色体的总体,它代表了问题的可能解。选择是第二个因素,它指的是种群中会进化到下一代的那一部分。选择是基于适应度函数执行的。选择过程适用于每一代生产。交叉是指通过选择确定的群体中两个成员之间的特征组合或交换,从而产生后代。这个过程不断重复,直到形成优化的集群。将遗传算法与k均值聚类算法进行了比较。K-means用于局部优化,遗传算法用于全局优化。遗传算法可以产生比k-means更好的结果。利用遗传算法形成更优的聚类。 It is Hybrid Model and it can do automatic clustering. It is used for Better searching techniques | ||||
信息提取工具 |
||||
电子报纸是以PDF文件形式提供的电子文件。文献中介绍了许多用于从PDF文件中提取数据的工具。还有许多其他容易获得的提取工具用于转换为文本格式。 | ||||
•PDFBox: Apache PDFBox[4]是一个由解析器类、提取类和基本修改类组成的库。PDF文件的解析器首先定位尾部,然后获得交叉引用表的地址,然后从树状模型中访问每个节点以获取信息。这些函数是由一个名为PDFBox的PDF类库实现的。方媛等[3]用它来提取文档的标题、作者、地址、摘要、关键词和类号。在这项工作中,作者使用PDFBox提取文本,并在格式发生变化的地方注入标签,将文档转换为半结构格式。这个项目允许创建新的PDF文档,操作现有文档和提取文档内容的能力。 | ||||
PDFtohtml: PDFtohtml[5]是一个实用程序,将PDF文件转换成HTML和XML格式。Burcu Yildiz, Katharina Kaiser, Silvia Miksch[2]使用它将PDF转换为XML以从PDF文档中提取表格,这里该工具返回文本块及其在PDF文件中的绝对坐标,其顺序与插入原始文件的顺序相同。PDFtohtml是一个基于开放源码查看器XPDF的工具。商业应用程序仅以可执行格式提供。Xpdf[7]是可移植文档格式(Portable Document Format, PDF)文件的开源查看器。Xpdf项目还包括PDF文本提取器、PDF-to- postscript转换器和各种其他实用程序。Xpdf应该可以在几乎任何运行X11并具有类unix (POSIX)库的系统上工作。它需要ANSI c++和C编译器来编译。这个工具的主要问题是很难提取图像。 | ||||
pdflb TET: pdflb TET [9] (Text Extraction Toolkit)是一个用于从PDF文档中提取文本、图像和元数据的工具。TET将PDF的文本内容提取为Unicode字符串,以及详细的字形和字体信息以及页面上的位置。它还将PDF文档转换为基于xml的称为TETML的格式,该格式包含文本和元数据以及资源信息。TET包含高级内容分析算法,用于查找单词边界、将文本分组成列和删除冗余文本。PDFLib TET可用于实现搜索引擎的PDF索引器,重新定位PDF中的文本和图像,将PDF的内容转换为其他格式,并根据其内容处理PDF。 | ||||
•Solid- pdf工具:Solid converter[11]是一个文档重建软件产品,允许用户将pdf转换为可编辑的文档。该软件通过保存原始格式从各种文件来源创建pdf。该工具的问题是,它仅限于windows平台,图像提取是一项艰巨的工作。 | ||||
•iText:开发人员将使用iText[8]向浏览器提供PDF,从XML文件或数据库生成动态文档。这些工具利用了PDF的许多交互功能,它可以拆分、连接和操作PDF页面。iText还用于自动填写PDF表单,并向PDF文件添加数字签名。在b[18]中,作者对不同的PDF提取工具进行了调查,并得出了一个结果,与其他提取工具相比,iText工具是提取所有对象及其信息的最佳工具。 | ||||
•3-Heights PDF Extract: PDF Extract工具[10]用于读取PDF文档的内容和属性。同时,该方法能够快速、高效地提取内容物。3- height工具从字符,单词或页面中提取文本作为Unicode,它还支持不包含空白字符的文本。它搜索关键字并检索它们的位置。此工具可用于将PDF文档转换为文本文档。 | ||||
•Able2extract:将PDF文件转换为流行的MS Office格式,包括Excel, Word, PowerPoint和Publisher,以及非微软格式,如AutoCAD。Able2Extract 8是一个完全跨平台的解决方案,可用于Windows, Mac和Linux用户。编辑、分析和修改PDF文档。 | ||||
•Aspose: Aspose将PDF转换为文字处理文档。Aspose读取PDF,识别可编辑的文档结构,并允许将结果文档保存为DOC, OOXML, ODT, RTF, WordML, HTML, MHTML或TXT。Aspose工具可以精确地转换内容,包括原始文档的格式。 | ||||
比较 |
||||
•本比较研究的目的是寻找一种工具,将PDF格式的电子报纸转换为保留文件原始布局的文本格式。后来的文本挖掘技术被应用于分析新闻项目。因此,不同工具之间的比较是基于它们的通用特性和操作特征来确定的。表1中列出的工具是用户用来将PDF文件转换为其他格式的工具。而表2中列出的工具是开发人员用来添加和创建PDF特性的库文件。 | ||||
表1和表2中列出的工具用于从pdf文件中提取数据并将其转换为文本格式。与其他工具相比,iText、Jpedal、Aspose和PDFLib工具具有更多的功能。在这些工具中,Aspose工具是最好的提取工具,因为它随布局转换文档,而iText、Jpedal、PDFLib工具转换文档时没有结构,缺点是文本的阅读顺序没有必要保留,特别是在处理具有复杂布局的多列文档时。 | ||||
•文献作品的比较研究,以识别和提取文章; |
||||
作者Aiello和pegoretti b[14]已经评估了三种用于物品识别的算法。他们构建了一个称为连接图的图,其中每个节点都是一个块。每个连接的组件都是一篇文章。每一页的基本事实是,每一篇文章都是一个小集团。通过对比实图与输出图,计算函数加权调和均值。每一篇文章都是由一个派系组成的。该算法将文章识别为连接图的连接组件,并根据连接图与基础真值图的匹配程度评估该算法。该方法展示了语义信息的好处,但当几个独立的文章共享相同的文本内容时,它就失败了。另一个缺点是,该方法仅用于评估构建图结构的算法。 | ||||
然而,作者Beretta和Laura在b[1]中提到,图的节点是块,并实现了一个评估指标,其中包括加载一组PDF文件及其相关的基础事实库,定义和保存PDF文件的基础事实库以及评估算法的性能等操作。将报纸文章识别问题约简为一个具体的图聚类问题,在对算法进行评价后,将约简转化为一个完整的工作报纸文章识别算法。一种方法允许区分不同程度的错误,这取决于错误识别的文章块的数量。 | ||||
在[1]和[14]中,作者使用聚类技术对属于同一篇文章的文本块进行分组,这为报纸文档的理解展示了语义信息。而b[13]的作者高良才、唐智、林晓燕、王永涛则恢复了文章重构的方法。通过空间拓扑分析,利用二部图模型基于内容相似性和空间允许阅读顺序检测文章的阅读顺序。得到相应的最优匹配,生成一个或多个块队列。将文章分割成子队列,然后将生成的子队列合并到文章中。 | ||||
ad . Thakare, N. Muthiyan, D. Nangade, D. Patil, M. Patil[17]教授采用遗传算法对新闻文章进行聚类。文章根据其特征进行分组,首先搜索关键字,然后根据关键字的相似性将文章聚类到不同的域。该算法的缺点是,文档仅基于关键字的相似性聚类,因为当几个独立的文章共享相同的文本内容时,这种方法会失败。 | ||||
拟议的工作计划 |
||||
不同新闻网站的电子报纸基本上都是PDF格式的。因此,PDF提取工具被应用于从电子报纸中提取文本,而不影响报纸的格式。随后的文本挖掘技术被用于分析新闻条目并将信息总结给读者。因此,文章识别方法被用于从报纸中提取文章。文章的重要特征是它的边界框,它在页面中的位置,以及它的内容。主要的注意力集中在文章的内容上。在报纸版面上,版面将文章与其文本内容分开的所有文本块。一种说明两个块是否属于同一篇文章的方法是比较它们包含的单词,如果它们共享相同的单词,它们可能是关于同一主题的。然后利用向量空间法和概率模型等频率数据计算基于单个词频率的相似度分数。文章聚类过程包括四个步骤:i)获取块内所有单词的列表。 ii) Give a weight to each word inside each block. iii) Find the similarity between all the pairs of vectors. iv) Group together the blocks which probably belong to the same article. v) Find the reading order of blocks and merge the blocks into article of sequence. Furthermore the identified articles are extracted from each of the newspapers. The extracted articles from different newspapers will be grouped into different domains such as business, economics, politics, education, sports, etc. according to the similarity of the keywords. Furthermore the text mining techniques are applied to analyze the news articles. | ||||
结论 |
||||
电子报纸在向用户提供有用信息方面发挥着重要作用。每份报纸都包含几篇独立的、信息丰富的新闻文章,散布在版面上,版面布局不规范,几何形状也不简单。本文探索了研究人员先前提出和实验的数据挖掘技术,用于从电子报纸中识别文章。显然,为了分析新闻,文章识别是很重要的。还观察到聚类算法,如图聚类算法或遗传算法可以应用于识别文章。一旦文章被识别出来,就可以用来总结信息。从新闻网站收集的报纸基本上都是PDF格式的,从这些格式中挖掘文本并不是一件容易的事。本文对所列出的各种提取工具进行了研究,以期找到最适合的提取工具将PDF格式的数据转换为文本格式。 | ||||
表格一览 |
||||
|
||||
参考文献 |
||||
|