当前位置:主页 > 管理论文 > 移动网络论文 >

面向动态Web应用的数据采集与抽取技术研究与实现

发布时间:2024-03-31 21:17
  随着信息技术的发展,人类进入大数据时代,大数据分析不仅在商业竞争中至关重要,在公共事业领域,大数据在促进经济发展、维护社会稳定等方面也发挥着重要作用,政府部门加快大数据开发开放已经成为必然选择。但此前政务数据缺乏科学的管理和系统的规划,导致了政务数据源分散、数据相对割裂、应用和服务碎片化的情况,造成政务数据开放工作中高质量的数据源获取困难的问题,如何自动、高效地获取政务系统数据源成为近年研究热点。本文研究如何自动获取异构、独立的政务系统网站页面,在对政务系统网站进行协议和结构分析的基础上,提出一种基于事件模拟的动态Web页面采集框架,框架创新性地引入代理网关实现向目标网站中注入JavaScript代码,并采用内置原生浏览器的方式实现网页中JavaScript脚本解析和页面渲染。在采集策略方面,框架对已有研究中状态转换方法进行改进,最终实现对动、静态两种网站兼容的自动化页面采集方案。在此基础上,对政务系统中两种典型的半结构化信息:列表类信息和主题类信息的抽取,分别提出树对齐算法和文本密度算法。树对齐算法提出利用网页DOM树特性识别并分割数据记录,在将数据记录进行对齐时采用部分对齐的方式,...

【文章页数】:77 页

【学位级别】:硕士

【部分图文】:

图1-1MVC应用构件模型及运行框架[12]??

图1-1MVC应用构件模型及运行框架[12]??

?北京邮电大学工学硕士学位论文???(2)视图(View)定义用户界面中数据展示及布局信息,并且实现了将界??面上的用户操作转化为构件控制器中功能。??(3)控制器(Controller)实现构件的主体业务逻辑,并对应用如何控制模??型和视图元素进行定义,在此基础之上,开发人员可....


图2-4CSS文件中伪类的应用

图2-4CSS文件中伪类的应用

图2-6页面弹窗问题展示??从以上几个方面可以看出目前动态爬虫的研宄工作中仍然存在诸多困难与??挑战,本文的Web数据采集研究将针对爬取动态网站提出一种新的方法,并对己??有的工作和存在的问题进行改良和优化,实现基于事件模拟的Web页面采集框架,??帮助使用者更加高效和稳定地完成....


图2一SJavasctipt中对CSS伪类的引用

图2一SJavasctipt中对CSS伪类的引用

图2-6页面弹窗问题展示??从以上几个方面可以看出目前动态爬虫的研宄工作中仍然存在诸多困难与??挑战,本文的Web数据采集研究将针对爬取动态网站提出一种新的方法,并对己??有的工作和存在的问题进行改良和优化,实现基于事件模拟的Web页面采集框架,??帮助使用者更加高效和稳定地完成....


图2-7抽取规則生成流程图[31】??该算法在构建PAT树前需要对网页中所有标签和文本进行前缀编码,由于网??

图2-7抽取规則生成流程图[31】??该算法在构建PAT树前需要对网页中所有标签和文本进行前缀编码,由于网??

(2)?IEPAD[31]基于模式发现的方法从半结构化文档中抽取结构化数据。算??法利用类似后缀树的数据结构PAT?(Practical?Algorithm?for?Retrieve?Information??Coded?in?Alphanumeric?Tree)来发现同构的数据....



本文编号:3944506

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3944506.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户0ad7d***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]