Web信息抽取规则的设计和实现

发布时间：2024-04-12 18:34

　　Web成为目前全球规模最大的信息源,包含了大量有价值的信息。Web信息抽取技术研究如何从网页上精确获取为用户或应用感兴趣的信息。现有的Web信息抽取研究大都集中于对已有网页的自动化分析和数据抽取,忽略了信息抽取过程中复杂的网页浏览导航过程,以及抽取后数据的集成处理问题。针对现有研究工作的不足,本文首先研究全过程化Web信息抽取模型,该模型将综合考虑网页浏览导航、网页数据抽取及数据集成三个完整处理过程。在网页浏览导航阶段,本文研究提出一种网页浏览导航动作模型,该模型能刻画用户在网页上交互和浏览跳转的动作和行为,然后在网页数据抽取运行时,通过回放这种网页交互和浏览跳转动作,即可自动完成抽取过程中相关网页的连接跳转。在网页数据抽取阶段,本文将研究一种能综合处理各种复杂格式网页数据记录的数据抽取模型,可解决非规整数据网页和多种复杂的规则数据网页的数据记录抽取处理。在数据集成阶段,我们将研究采用基于XML的层次式目标数据模型,可允许用户定义各种复杂的目标数据实体结构,并通过一定的数据转换和映射方法,将从网页上抽取出来的原始数据集成为所指定的目标数据记录。基于以上全过程的Web信息抽取模型,本...

【文章页数】：68 页

【学位级别】：硕士

【部分图文】：

图4Web页面信息块抽取平台

息块结果输出。3　应用实例和测试图4和图5是使用文中设计的分割和抽取规则实现的Web页面信息块抽取平台的运行画面。图4　Web页面信息块抽取平台图5　Web页面扩展DOM树和信息抽取结果图4显示出待处理的Web页面,图5通过标签分别给出该页面的扩展DOM树和信息块抽取结果。我们利....

图5Web页面扩展DOM树和信息抽取结果

息块结果输出。3　应用实例和测试图4和图5是使用文中设计的分割和抽取规则实现的Web页面信息块抽取平台的运行画面。图4　Web页面信息块抽取平台图5　Web页面扩展DOM树和信息抽取结果图4显示出待处理的Web页面,图5通过标签分别给出该页面的扩展DOM树和信息块抽取结果。我们利....

本文编号：3951799

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/guanlilunwen/ydhl/3951799.html

上一篇：医院信息化质量与安全平台设计与实践
下一篇：浅谈IPV6地址获取方式

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|