基于深度学习的自然场景文本检测与识别研究

发布时间:2024-03-09 20:02
  计算机技术的不断进步和各类信息数据的爆炸性增长,使人工智能得到了高速的发展。自然场景图像中存在大量的文本图像并蕴含了丰富的信息,如何有效提取文本的信息,成为现阶段研究的热点之一。自然场景文本检测的目的是在一幅自然图像中检测出文本实例的位置,自然场景文本识别是自然场景文本检测与识别任务中紧跟检测任务的下游任务,目的是将检测模块处理输入图像所输出的候选区域的文本内容进行识别,并且输出相应的字符串。自然场景文本检测与识别技术在计算机帮助人类处理文本图像数据中起到了重要的作用,并广泛应用到自动导航、智能信息录入、场景识别、多媒体检索等多个领域,体现出广阔的应用前景。然而,自然场景下的文本图像不同于传统OCR光符识别应用的文本图像,具有以下难点:自然场景中的文本不再单一,具有角度灵活、大小不一、颜色丰富和字体形状多变等特点;自然场景的背景十分复杂,还有些背景信息与文本区域信息十分相似,比如栅栏、旗杆等;在实际应用场景中的文本图像成像质量不稳定,会受到拍摄设备、拍摄水准、光照条件等因素的影响,使得自然场景文本图像存在清晰度较差、文本行被遮挡等问题。上述特点严重影响了自然场景文本检测与识别算法的准确...

【文章页数】:75 页

【部分图文】:

图1.1基于MSER的自然场景文本检测

图1.1基于MSER的自然场景文本检测

了该领域研究的主要技术。1)传统的自然场景文本检测方法基于传统的文本检测技术包括处理连通域和处理滑动窗口的技术等。对于连通域的技术主要有最大稳定极值区域[7](MSER)技术和Epshtein等人提出的笔画宽度变换[8](SWT)技术等。SWT算法能够获得在规模和空间特征....


图1.2基于Textboxes++任意方向排列的文本检测

图1.2基于Textboxes++任意方向排列的文本检测

华中科技大学硕士学位论文Liao等人先是设计了Textboxes文本检测方法[26],通过改进SSD网络,使得文本在每个区域存在可能性的计算速度得到提升。随后他们改进之前的工作,设计了Textboxes++技术[27],并进一步改进网络结构,把T....


图1.3基于深度卷积神经网络的识别模型网络结构

图1.3基于深度卷积神经网络的识别模型网络结构

华中科技大学硕士学位论文识别上[50]。该网络通过深度卷积神经网络进行文本的特征提取,然后再采用递归神经网络取代语言模型对文本进行识别,可以识别带标点的文本。然而该方法在文本较长的情况下识别率不高。随后Shi等人采用的注意力模型来解决长文本问题[51]。


图1.4基于字典搜索纠错的端到端文字识别算法的结果

图1.4基于字典搜索纠错的端到端文字识别算法的结果

华中科技大学硕士学位论文就可以到达识别任务的方法,通过MSER提取图像中的文本作为文本候选区域,再利用训练好的分类器过滤掉非文本区域,并把其他的文本候选区域放到字符识别模型中进行识别[7]。Matas等人对方法进行改进,引入了基于连通域文本的检测方法,....



本文编号:3923869

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/3923869.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户4104d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]