当前位置:主页 > 科技论文 > 施工技术论文 >

建筑类网站聚焦爬虫策略研究

发布时间:2024-03-03 23:11
  在工作和研究中持续更新大量的资料和数据是建筑师的职业基础。传统人工搜索互联网的方式工作量大且挖掘率低,对网站数据源的利用往往不够充分。国内大部分建筑类网站采用HTML文本标记数据,对HTML采用网络聚焦爬虫有助于建筑师高效定位并规范化储存专业数据。通过对建筑类主流网站结构特征进行分析,总结建筑学3种专业爬虫需求。基于Python的语言特征,提出公开数据类和建筑档案类2种爬虫策略。实测结果表明爬虫策略具有数据采集实时性好、易管理维护的优点,同时均运行高效且稳定,可为建筑专业大数据分析提供更多高质量的数据源。

【文章页数】:6 页

【部分图文】:

图1anjuke.com的部分robots协议内容

图1anjuke.com的部分robots协议内容

尊重robots协议的科学爬虫是实现用户与服务器间良性互动的基础。robots协议(robotsexclusionprotocol,网络爬虫排除标准)是互联网爬虫的一项公认的道德规范,用于公示允许爬虫的内容。如图1所示anjuke.com的部分robots协议内容,禁止了具体....


图2网页请求数据方式

图2网页请求数据方式

该网站主要的源数据基本记录在HTML文档中。因此,对HTML数据的爬虫策略主要分为四步:发出请求、解析文档、定位数据、规范存储。首先,通过网站的URL向网站服务器发出请求,征求服务器响应。如图2、3所示,当RequestMethod显示为“GET”时,即为可请求的HTML文档。....


图3网页响应状态码

图3网页响应状态码

图2网页请求数据方式解码所得HTML文档数据可用第三方的bs库解析为bs4.BeautifulSoup类,即一种容错能力较强的数据。解析后的网页数据仍量大且杂乱,在获取数据时需锁定所需数据。通常先找寻数据的上级标记(tag),再往下级缩小范围定位每个数据,从而避免数据干扰。有....


图4数据爬虫代码核心部分

图4数据爬虫代码核心部分

档案爬虫策略请求服务器与解析HTML的方式与数据类策略相近。在此基础上,增加网页列表的筛选和图文资料的分渠处理两步。这些内容重复判断较多,写成一条主程序既不简洁也不便维护。因此在建立主程序前需要先封装成几个小程序。本文以zhulong.com为例,爬取展览建筑案例,包括文字描述、....



本文编号:3918500

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sgjslw/3918500.html


Copyright(c)文论论文网All Rights Reserved | 网站地图

版权申明:资料由用户7b0e2***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱[email protected]