一种端到端的多角度场景文本检测和识别方法

发布时间：2023-12-09 08:27

　　自然场景中的文本展示了许多信息,并提供了与环境交互的基本工具。文本检测方面,场景文本检测受场景文本比例、尺度和方向的较大差异困扰。本文将特征金字塔机制(Feature Pyramid Networks,FPN)与 SSD(Single Shot Detector)框架相结合,以处理不同比例的文本,并连接局部可检测元素以检测具有不同方向和尺度的文本。与SSD相比,通过放大了深层特征图,以更好地定位大文本并准确识别小文本。文本识别方面,引入残差模块(ReseNet)与注意力机制(Attention)的识别器解决了模型训练时容易产生梯度爆炸、消失等问题,并且能够有效预测长字符,提高识别率。为了处理不同比例、尺度和方向的文本,提出了一种端到端的场景文本检测与识别方法。本文工作如下:(1)通过结合特征金字塔网络和连接段,可以有效地检测不同比例和方向的场景文本。(2)采用更深层次特征金字塔机制与SSD结合的设计,可以有效解决不同规模的文本检测问题,尤其是小文本。(3)由于选择了 SSD样式的检测器,因此所提出的文本检测方法非常高效。(4)用引入残差网络的深度双向递归网络(Bi-LSTM)对文本序列...

【文章页数】：68 页

【学位级别】：硕士

【文章目录】：
摘要
ABSTRACT
第1章绪论
    1.1 研究背景
    1.2 国内外研究现状
        1.2.1 场景文本识别国内外研究现状
        1.2.2 研究现状分析
    1.3 论文研究内容与结构安排
第2章端到端的场景文本检测与识别方法原理
    2.1 场景文本识别原理
    2.2 特征金字塔介绍
    2.3 残差网络介绍
    2.4 注意力机制介绍
    2.5 相关场景文本识别网络模型介绍
        2.5.1 场景文本检测网络模型
        2.5.2 场景文本识别网络模型
        2.5.3 端到端模型
    2.6 本章小结
第3章端到端的场景文本检测与识别模型设计
    3.1 端到端的场景文本检测与识别模型总体架构
    3.2 场景文本检测模型
        3.2.1 Seglink网络模型
        3.2.2 基于FPN的Seglink模型的深层特征提取
        3.2.3 模型训练及损失函数
    3.3 场景文本识别模型
        3.3.1 Bi-LSTM与CTC的场景文本识别
        3.3.2 基于改进Bi-LSTM上下文语意的特征提取
        3.3.3 基于改进CTC转录
        3.3.4 模型训练
    3.4 本章小结
第4章仿真实验与应用验证
    4.1 实验设计
        4.1.1 深度学习框架
        4.1.2 开源数据集
    4.2 实验过程
        4.2.1 模型训练
        4.2.2 文本识别实验结果评测标准
        4.2.3 性能评测
    4.3 实验结果分析
        4.3.1 文本多角度检测分析
        4.3.2 文本检测端改进效果对比与分析
        4.3.3 文本识别端改进效果对比与分析
        4.3.4 端到端模型效果对比与分析
    4.4 本章小结
第5章结论与展望
    5.1 研究工作总结
    5.2 主要创新点
    5.3 展望
致谢
参考文献
攻读学位期间的研究成果

本文编号：3871206

资料下载

论文发表

支付宝下载
微信下载
会员下载

本文链接：https://www.wllwen.com/kejilunwen/shengwushengchang/3871206.html

上一篇：基于多智能体仿真的密集行人流管理及应急疏散优化研究
下一篇：面向中医骨科问诊的相似病例推荐方法研究