当前位置:主页 > 管理论文 > 移动网络论文 >

基于HTML的WEB就业信息抽取技术研究

发布时间:2024-02-23 18:02
  随着计算机的普及和互联网的发展,网络已成为人们查找信息的重要渠道。Web作为巨大的数据源,从Web中抽取信息是当前信息研究的热点之一。 随着我国高校招生规模逐年扩大,给高校学生的培养及就业带来了诸多压力。我们希望从互联网上获得大量的就业信息,对专业建设和就业有一定的指导意义。互联网的这些海量信息中,大多都是半结构化的HTML格式。HTML结构的文本并不严格,语义也不清晰,人们无法快速准确地找到需要的信息,所以如何快速准确地获取这些数据是亟待解决的问题。 因此,我们分析了就业信息网站中HTML网页的特点,提出一种新的基于HTML结构的Web就业信息抽取模型。该模型由HTML结构预处理模块、表格定位模块和信息抽取模块三个模块组成。 首先我们利用JTidy对获取的Web页代码进行清洗并转化为XML文档。再经过XML解析获取Web页的DOM树。最后通过大量的观察,我们形成启发规则来定位“真”表格,设计实现了算法;考虑到表格的跨多行、跨多列的布局会导致各个数据单元和相应属性无法一一对应,本文对表格进行标准化处理,使每一行或列都具有相同数目对齐的单元格。 在多个网站进行实验的结果表明,本文提出的W...

【文章页数】:73 页

【学位级别】:硕士

【部分图文】:

图3-1赶集网样本页上图中被红色圈中的区域集中发布大量就业信息,对应的网页源代码中还有

图3-1赶集网样本页上图中被红色圈中的区域集中发布大量就业信息,对应的网页源代码中还有

图3-1赶集网样本页上图中被红色圈中的区域集中发布大量就业信息,对应的网页源代码中还有每条信息对应的超链接内容,我们研究的目的就是在这样的页面中抽取出这部分信息,并设计一定结构将抽取到的信息保存起来以便查询和利用。通过对大量的大型就业信息发布的网站进行对比研究,发现它们的结构....


图3-2HTML代码段显示效果

图3-2HTML代码段显示效果

<TD>6000</TD><TD>5500</TD><TD>创维</TD><TD>130</TD></TR><TR><TD>洗衣机</TD><TD>3000</TD><TD>2800</TD><TD>小天鹅</TD><TD>212</TD></TR>ABLE>HTML代码在网....


图4-3页面对应的HTML文档源码片断在图4-3中,我们发现样本页的源代码中含有大量的SCRIPT脚本信息,CSS

图4-3页面对应的HTML文档源码片断在图4-3中,我们发现样本页的源代码中含有大量的SCRIPT脚本信息,CSS

37图4-3页面对应的HTML文档源码片断在图4-3中,我们发现样本页的源代码中含有大量的SCRIPT脚本信息,CSS式信息等。这些无用的信息对我们从中抽取用户需求的信息带来不小的干扰。


图4-2样本网页截图

图4-2样本网页截图

图4-2样本网页截图图4-2页面对应的HTML文档源码片断如图4-3所示:



本文编号:3907750

资料下载
论文发表

本文链接:https://www.wllwen.com/guanlilunwen/ydhl/3907750.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户91e1c***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com