所有提交的EM系统将被重定向到网上投稿系统.作者被要求将文章直接提交给网上投稿系统各自的日志。

基于小说的数字电子视频文本提取与识别

Ms.Suwarna Baheti1,卡尔帕纳·萨克雷教授2
  1. 印度浦那辛哈加德工程学院信息技术系硕士生
  2. 印度浦那辛哈加德工程学院信息技术系副教授
有关文章载于Pubmed谷歌学者

更多相关文章请访问国际计算机与通信工程创新研究杂志

摘要

本文提出从一组图像(视频)中提取文本信息(用数据表示)是视频分割的主要目标。为了从海量的视频数据中提取和搜索重要信息,我们重点研究了视频文本的提取。然而,由于文本样式、字体、大小、方向、对齐方式的不同,以及图像对比度低、背景复杂等原因导致的文本的变化,使得自动文本提取问题变得极其困难和具有挑战性。为了解决这一问题,已经提出了大量的技术,本文的目的是使用java库和类设计从视频中提取文本的每个阶段的算法。在这里,我们首先使用Java媒体框架(JMF)将输入视频帧成图像流,输入是实时或来自数据库的视频,并考虑连接的组件分析形式。我们应用预处理算法将镜头帧转换为灰度,并去除文本上的叠加线、不连续去除和点去除等干扰。然后我们继续研究定位、分割、跟踪和识别的算法。

关键字

图像处理,文本提取,文本识别,定位,二值化,分割,视频中的文本。

介绍

数字视频格式有一个非常特定的结构。它是一个具有层次结构的图像序列:从单帧、镜头、场景和插曲到行为[6]。大多数图像索引技术都适用于视频文件。然而,由于视频文件中帧的数量巨大,减少处理时间需要使用一些进一步的技术,如场景检测,或关键帧提取[5],[7],[8]。这也是一个挑战,因为视频文件的低分辨率(与文档图像相比),由于压缩(例如MPEG)和复杂的背景[7],[8]造成的对比度损失。
视频文本可以分为两大类:图形文本和场景文本。图形文本或文本叠加是由视频编辑器机械添加的视频文本,如标题文本或叠加文本。例如新闻/体育视频字幕、电影演职员表等。场景文本是嵌入在现实物体或场景中的视频文本。例如街道名称,汽车牌照号码,足球运动员背后的号码/名字,电子视频,在标志或广告牌上的文字,卡车侧面的文字,甚至是在t恤上的文字。这些视频包含文本,包括录音后人工叠加的滚动文本或字幕文本,以及嵌入背景的场景文本。嵌入图像中的文本包含大量有用信息。由于文字具有明确的含义,从视频片段中提取的文本可以提供有意义的关键词,这些关键词可以反映视频的大致内容。这些关键字可以用来对视频片段[1]的内容进行索引和汇总。
图像和视频序列中的文本识别是模式识别、人工智能和机器视觉的研究领域,通常称为“视频OCR”,即视频光学字符识别。视频OCR试图创建一个计算机系统,自动检测、提取和理解嵌入在图像和视频帧中的文本的含义。
视频文本识别分为四个步骤
1.检测:检测文本的存在,它应该回答“当前帧中是否有文本字符串?”
2.本地化:本地化文本区域,它应该回答“当前帧中的文本字符串在哪里?”
3.提取:提取文本,通常这一步伴随着增强处理。
4.识别:识别文本,它应该回答“这个文本字符串说什么?”“通常这一步伴随着一些二值化和/或分割预处理步骤。
这方面的困难可分为以下主要类别:-
i.背景和文本可能不明确。
2文本颜色可以改变-文本可以有任意和不均匀的颜色。
3背景和文字有时是颠倒的。
iv.文本可能会移动。
v.未知的文本大小,位置,方向和布局-标题缺乏通常与文档相关的结构。
vi.无约束背景-背景的颜色可以与文本颜色相似。背景可能包括与字符笔画非常相似的条纹。
7有损颜色的视频压缩可能会导致颜色一起运行。
8低对比度-低比特率视频压缩会导致字符笔画和背景之间的对比度下降。

为什么在电子视频中使用视频

人们已经使用视频剪辑很多年了;只是现在他们在电脑上更容易找到。以下是来自E-learning网络社区论坛和E-tools " n?教育工作者社区论坛关于如何在电子学习中利用被称为电子视频的视频的提示:
i.电子视频是很好的演示目的。它们由文本和交互支持。
2一个20秒的电子视频可以很容易地取代一整页的文本,特别是在试图解释一个详细的过程或活动(即“如何”)时。
3使用短途旅行,如电子视频的短途旅行和编辑成一个少于5分钟的电影。让学生观看电子视频,并反思当天发生了什么,最重要的是什么等等。
iv.向他人展示学生在做什么,让社区感受到学习环境的一部分。
v.当你和学生一起创作自己的电影,而不是观看“其他电影”?,它增强了群组内的互动和个性化。
vi.用高亮、定格或慢镜头来突出某一事件会有难以置信的好处,例如演奏一种乐器或表演一项工艺技能或研究一项运动序列。
7教科书上的图片可能会很无聊,但通过电子视频使用真实场景可以使整个场景更加吸引人。
8在课程开始时播放一段简短的电子视频,可以吸引学生的注意力,让他们思考并集中注意力。
9简化语言,无论是字幕、屏幕标签还是画外音,都对语言衍生学习者大有裨益。
x.不同年龄段的学习者通过首先学习使用数码相机、团队合作和计划一个会对他们的社区产生影响的数字故事来享受并保持他们对使用电脑学习的热情。雷竞技官网
西由于空间限制或健康和安全问题,可能不允许大班授课时,可以由小组制作电子视频。
十二。在线存储的电子视频可以让学生(尤其是学习速度慢的学生)多次复习一个主题。

电子视频中文本提取、识别的框架

在本节中,为了对这些方法有一个清晰的概述,我们将只着重描述这些方法的框架和主要过程。
A]文本检测:以往复杂背景下的文本检测方法可以分为自底向上、启发式自顶向下方法和基于机器学习的自顶向下方法。
A.1]自底向上的方法——这并不真正检测文本的位置。这些方法直接将图像分割成区域,然后将“字符”区域分组为单词。
a .2]启发式自顶向下的方法——算法的第一部分旨在检测图像中的文本区域,第二部分可以看作是对局部图像应用自底向上的方法。基于机器学习的自顶向下方法——该系统从固定大小的像素块中提取衍生特征,并将特征向量分类为文本或非文本。
B .文本识别:由于商业OCR引擎在处理高分辨率黑白图像时具有较高的识别性能,因此文献中几乎所有解决复杂图像和视频中的文本识别问题的方法都采用了OCR系统来最终识别字符。为了扩展OCR对图像和视频文本的识别能力,主要的研究工作集中在文本分割和增强方面。
C .文本分割-对提取的文本区域进行方法,以去除文本字符周围的背景。这些方法通常假设灰度分布是双峰的,并且字符先验对应于白色部分或黑色部分。因此,为了更好地执行二值化,付出了巨大的努力。为了消除每个二值图像中的非字符区域,通过设置大小、高宽比等约束,采用简单的连通分量分析步骤。然而,这些方法无法过滤出与字符灰度值相似的背景区域。
D .文本增强——如果字符灰度值已知,文本增强方法可以帮助二值化过程。一种增强图像中文本的方法利用了文本字符由许多条纹结构组成的特性。增强是在文本图像上执行的,这是包含在连续视频帧中检测和跟踪的相同文本字符串的图像块。

从电子视频中识别文本的步骤

文本信息提取过程通常分为几个步骤。研究人员使用了不同的名称,而且含糊不清,可以互换。在这里,我们引入了一种无监督的方法来检测和本地化图像和视频帧中的文本对象。该方法基于一种新颖的基于图像结构的文本模型和三个新的字符特征。在本文提出的文本模型中,每个字符都是一个部分,相邻的两个部分通过链接连接起来。对于模型中的每个部分,我们使用给出的字符特征来计算字符能量,它可以反映字符的固有属性,并指示模型中的候选部分是字符的概率。对于模型中的每个链接,我们使用相邻字符之间的空间关系和属性相似性来计算链接能量,它表示两个连接的候选部分都是字符的概率。
该方法的优点是:(1)用部分描述文字对象的特征和结构。因此,该方法可以同时捕获字符和文本对象的属性,并有效地结合它们;(ii)提出的三个新的字符特征是基于字符的固有属性计算的。因此,该方法对文本的大小、字体、颜色和方向具有鲁棒性,能够有效地区分文本对象和其他对象。该方法的步骤如下:(i)通过对给定帧图像中的候选部分和连接进行本地化来初始化候选文本模型。(ii)根据角色属性计算每个部分的角色能量。(iii)根据文本属性计算每个连接的链路能量。(iv)计算文本单位能量,使用最小生成树生成最终文本模型,如图1所示。
A .视频的框架
我们使用Java媒体框架(JMF)来捕获媒体内容并将视频框起来。JMF是一个在Java程序中处理流媒体的框架。JMF是Java 2标准平台的一个可选包。JMF提供了统一的体系结构和消息传递协议,用于管理基于时间的媒体的获取、处理和传递。
JMF使Java程序能够:
i.呈现(回放)多媒体内容。
2在互联网上进行实时流媒体。
3处理媒体,如改变媒体格式,添加特殊效果。
iv.存储媒体到一个文件。
v. JMF为处理多媒体提供了一个平台中立的框架
这个阶段的输入是一个包含文本的视频。然后使用JMF以每秒1帧的速度将视频框成图像。这个速率可以增加或减少,这取决于视频的速度,即基于fps(帧每秒)。图像被缩放到280x90的分辨率,并保存在硬盘驱动器上的指定位置。
例如:如果视频是30秒,那么视频的30帧(图像)将被缩放到28x90的大小并保存,然后将其作为下一个阶段[7]的输入。B .预处理
一个缩放图像是输入,然后转换成一个灰色缩放图像。该图像构成了预处理部分的第一阶段。这是通过考虑图像每个像素的RGB颜色含量(R: 11%, G: 56%, B: 33%)并将其转换为灰度来实现的。将彩色图像转换为灰度缩放图像是为了更容易识别图像中出现的文本,因为灰度缩放后的图像被转换为黑白图像,其中包含白色背景下对比度更高的黑色文本。
预处理的第二阶段是线条去除。视频可以包含水平波动(贯穿屏幕的水平线)或垂直波动(贯穿屏幕的垂直线)的噪声。因此,为了成功识别帧中出现的文本,有必要去除这些水平和垂直波动。这是通过清除位于屏幕上水平和垂直出现的所有直线上的所有像素(将像素颜色从黑色改为白色)来实现的,因为视频中可能发生的波动。如果视频帧不包含任何水平和垂直波动[6],这一阶段不会对图像进行任何更改。
预处理的第三阶段是去除在预处理的第二阶段中创建的不连续。如上所述,如果视频包含任何波动,那么这些波动将在线条去除阶段被去除。如果水平和垂直的波动恰好发生在文本出现的地方,那么它就会在视频帧中出现的文本之间产生不连续,这使得文本的识别非常困难。这是通过从左上到右下扫描每个像素,并考虑每个像素及其所有邻近像素来实现的。如果考虑的像素是白色的,相邻的像素都是黑色的,那么对应的像素设置为黑色,因为所有的黑色相邻像素都表明考虑的像素在去线阶段因为波动[3]而被清除。
预处理阶段的最终输出是消除剩余的干扰,如噪声。这是通过从左上到右下扫描每个像素并考虑每个像素及其所有邻近像素来进行的。如果考虑的像素是黑色的,而所有相邻像素都是白色的,那么对应的像素被设置为黑色,因为所有黑色相邻像素都表明考虑的像素是一些不需要的点(噪声)[2]。
C .检测和定位
在文本检测阶段,由于之前没有输入图像是否包含文本的信息,所以必须判断图像中是否存在文本。然而,在电子视频的情况下,包含文本的帧数比不包含文本的帧数要少得多。文本检测阶段旨在检测给定图像中文本的存在。从视频帧选的镜头中选取包含文本的帧,由于文本区域相对于整个图像所占的比例通常很小,因此场景变化检测需要非常低的阈值。该方法对场景变化检测非常敏感。对于只需要视频片段中的关键字而不是整个文本的视频索引应用程序来说,这是一种简单而有效的解决方案。定位阶段包括检测后对图像中的文本进行定位。换句话说,通过识别像素强度值相似的框或区域,并将它们返回到下一阶段进行进一步处理,可以跟踪帧中出现的文本。本阶段使用基于区域的方法进行文本本地化。基于区域的方法利用文本区域的颜色或灰度的属性或它们与背景的相应属性的差异。 [2], [5].
D]分割
文本本地化后,文本分割步骤处理文本像素与背景像素的分离。这一步的输出是一个二进制图像,其中黑色文本字符出现在白色背景上。这一阶段包括通过将具有相似属性的像素划分为轮廓或段,并丢弃帧[2]的冗余部分来提取实际文本区域。
E)识别
这一阶段包括通过结合前一阶段提取的各种特征来实际识别提取的字符,并在监督神经网络的帮助下给出实际文本。在这一阶段,考虑分割阶段的输出,将图像中包含的字符与预定义的神经网络训练集进行比较,根据图像中出现的字符的值,表示最接近训练集值的字符显示为识别字符[2],[4]。
实验的目的是分析视频中包含的文本质量对文本信息抽取成功率(抽取概率组中的查全率和准确率)的影响;即文本信息提取在视频索引和信息检索中的实用性。
为了捕捉文本质量对文本信息提取成功的影响,分别测量了上述每组文本质量的查全率和查准率。处理时间被一起测量,以获得平均帧的结果。已报告运行错误。最后,在数字电子视频信息检索的有用性背景下,对结果进行了分析和评价。为了验证文本信息提取方法在提供视频索引时的有效性,对每个指定类别分别测量了不同的单词识别率。所获得的结果说明了有效性:视频中每个类别正确识别的不同单词的数量。
的例子。输入是java的数字电子视频,已由讲师解释?
图像
TC:完全没有。人物RL:相关;RT:检索NRL:不相关;NRT:未检索

因此,建议方法为

查全率= 97.5%
不同单词识别率= 95%
计算时间=大约2-3秒

结论

在本文中,我们提出了一个新的框架,同时考虑到教师?讲座视频并提出视频分割的新技术,多媒体知识,包括发现电子视频的感知和语义知识的技术。在录制、编辑和回放视频时,可以发现交互作用。对于材料创作,我们揭示了一个常见的问题,并提出了解决方案。还提供了一个录音模型,以提高教师?与物质的相互作用。
由于视频质量低,帧图像小,从视频序列中识别关键字仍然是教育材料中最具挑战性的问题之一。我们提出了一种简单有效的技术来检测和识别视频序列中的关键字,这是两个主要的挑战:(检测和分割)。检测并不困难,但从视频中获取准确和正确的材料是很难的。研究了该算法对序列数敏感的性能,并给出了新用户能够理解的良好结果。

表格一览

表的图标
表1

数字一览

图1
图1

参考文献

  1. JulindaGllavata,“从图像和视频中提取文本信息,用于基于内容的自动注释和检索”。

  2. 牛津克拉伦多姆,“电和磁的边缘方法”,IEEE,第3版,第2卷,1892年,第68-73页。

  3. “一种彩色视频文本提取的鲁棒算法”(本文发表于《多媒体与博览会》2000,icme2000, 2000 IEEE国际会议发表日期:2000)

  4. 郑俊杰,“图像和视频的文本信息提取:一种调查模式识别方法”,第27期,2004年。

  5. R.Lienhart和A.Wernicke,“图像和视频中的文本本地化和分割”,视频技术电路和系统学报,12(4):256-268,2002。

  6. N.Efford,“数字图像处理:使用Java的实用介绍”,Addison Wesley,2000。

  7. Yeo, B., Liu, B.(1995),“压缩视频的快速场景分析”,IEEE电路与系统视频技术汇刊,533-44。

  8. Zhang, H., Kankanhalli A.和Smoliar, W.(1993),“全运动视频的自动分区”,多媒体系统,10-28。

  9. ChitraDorai, Oria, V., Neelavalli, V.,“基于演示内容的教育视频结构化”,图像处理,2003年国际会议,第2卷,pp-1029-32, 2003年9月14-17日。

  10. F. Smeaton,“数字视频和数字音频信息的索引、浏览和搜索”,音频,93-110页,2000。

  11. 张杰和R. Kasturi,“视频文档中文本对象的提取:最新进展”,2008第八届IAPR文档分析系统国际研讨会,第5-17页,2008年9月。

  12. T. Sato, T. Kanade, E. K. Hughes,和M. A. Smith,“视频OCR:通过识别叠加标题索引数字新闻图书馆”,多媒体系统,第7卷,第7期。5,页385-395,1999。

  13. H. Li和D. Doermann,“使用多帧集成的数字视频文本增强”,方法论,第1-12页,1999。

  14. D. Chen和J. Odobez,“使用序列蒙特卡罗和错误投票方法的视频文本识别”,模式识别通讯,第26卷,no. 1。9,第1386-1403页,2005年7月。

  15. 黄晓东、黄海忠、华东敏“一种新的视频文本提取方法”,多媒体与信息技术,2009。ICME 2009。IEEE国际会议,pp. 650-653, 2009。

  16. J. Assfalg, M. Bertini, C. Colombo和A. Del Bimbo,“从新闻和体育视频中提取语义信息”,ISPA 2001。第二届图像与信号处理与分析国际研讨会论文集。结合第23届国际信息技术接口会议(IEEE Cat.No.01EX480),第4-11页,2001。

  17. K. Jung,“图像和视频中的文本信息提取:一个调查”,模式识别,第37卷,no. 1。5,第977-997页,2004年5月。

  18. 陈丹,J. Luettin, K. Shearer,“图像和视频中的文本检测和识别研究综述”,DalleMolled?智能感知技术研究进展,智能感知技术研究进展,2000

  19. Jung K., K.I. Kim,和A.K. Jain,“图像和视频中的文本信息提取:一个调查”,模式识别,第977-997页,2004

全球科技峰会