当前位置:主页 > 管理论文 > 移动网络论文 >

Web信息抽取规则的设计和实现

发布时间:2024-04-12 18:34
  Web成为目前全球规模最大的信息源,包含了大量有价值的信息。Web信息抽取技术研究如何从网页上精确获取为用户或应用感兴趣的信息。现有的Web信息抽取研究大都集中于对已有网页的自动化分析和数据抽取,忽略了信息抽取过程中复杂的网页浏览导航过程,以及抽取后数据的集成处理问题。针对现有研究工作的不足,本文首先研究全过程化Web信息抽取模型,该模型将综合考虑网页浏览导航、网页数据抽取及数据集成三个完整处理过程。 在网页浏览导航阶段,本文研究提出一种网页浏览导航动作模型,该模型能刻画用户在网页上交互和浏览跳转的动作和行为,然后在网页数据抽取运行时,通过回放这种网页交互和浏览跳转动作,即可自动完成抽取过程中相关网页的连接跳转。在网页数据抽取阶段,本文将研究一种能综合处理各种复杂格式网页数据记录的数据抽取模型,可解决非规整数据网页和多种复杂的规则数据网页的数据记录抽取处理。在数据集成阶段,我们将研究采用基于XML的层次式目标数据模型,可允许用户定义各种复杂的目标数据实体结构,并通过一定的数据转换和映射方法,将从网页上抽取出来的原始数据集成为所指定的目标数据记录。 基于以上全过程的Web信息抽取模型,本...

【文章页数】:68 页

【学位级别】:硕士

【部分图文】:

图4Web页面信息块抽取平台

图4Web页面信息块抽取平台

息块结果输出。3 应用实例和测试图4和图5是使用文中设计的分割和抽取规则实现的Web页面信息块抽取平台的运行画面。图4 Web页面信息块抽取平台图5 Web页面扩展DOM树和信息抽取结果图4显示出待处理的Web页面,图5通过标签分别给出该页面的扩展DOM树和信息块抽取结果。我们利....


图5Web页面扩展DOM树和信息抽取结果

图5Web页面扩展DOM树和信息抽取结果

息块结果输出。3 应用实例和测试图4和图5是使用文中设计的分割和抽取规则实现的Web页面信息块抽取平台的运行画面。图4 Web页面信息块抽取平台图5 Web页面扩展DOM树和信息抽取结果图4显示出待处理的Web页面,图5通过标签分别给出该页面的扩展DOM树和信息块抽取结果。我们利....



本文编号:3951799

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3951799.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户c440d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com