建筑类网站聚焦爬虫策略研究

发布时间：2024-03-03 23:11

　　在工作和研究中持续更新大量的资料和数据是建筑师的职业基础。传统人工搜索互联网的方式工作量大且挖掘率低,对网站数据源的利用往往不够充分。国内大部分建筑类网站采用HTML文本标记数据,对HTML采用网络聚焦爬虫有助于建筑师高效定位并规范化储存专业数据。通过对建筑类主流网站结构特征进行分析,总结建筑学3种专业爬虫需求。基于Python的语言特征,提出公开数据类和建筑档案类2种爬虫策略。实测结果表明爬虫策略具有数据采集实时性好、易管理维护的优点,同时均运行高效且稳定,可为建筑专业大数据分析提供更多高质量的数据源。

【文章页数】：6 页

【部分图文】：

图1anjuke.com的部分robots协议内容

尊重robots协议的科学爬虫是实现用户与服务器间良性互动的基础。robots协议（robotsexclusionprotocol，网络爬虫排除标准）是互联网爬虫的一项公认的道德规范，用于公示允许爬虫的内容。如图1所示anjuke.com的部分robots协议内容，禁止了具体....

图2网页请求数据方式

该网站主要的源数据基本记录在HTML文档中。因此，对HTML数据的爬虫策略主要分为四步：发出请求、解析文档、定位数据、规范存储。首先，通过网站的URL向网站服务器发出请求，征求服务器响应。如图2、3所示，当RequestMethod显示为“GET”时，即为可请求的HTML文档。....

图3网页响应状态码

图2网页请求数据方式解码所得HTML文档数据可用第三方的bs库解析为bs4.BeautifulSoup类，即一种容错能力较强的数据。解析后的网页数据仍量大且杂乱，在获取数据时需锁定所需数据。通常先找寻数据的上级标记（tag），再往下级缩小范围定位每个数据，从而避免数据干扰。有....

图4数据爬虫代码核心部分

档案爬虫策略请求服务器与解析HTML的方式与数据类策略相近。在此基础上，增加网页列表的筛选和图文资料的分渠处理两步。这些内容重复判断较多，写成一条主程序既不简洁也不便维护。因此在建立主程序前需要先封装成几个小程序。本文以zhulong.com为例，爬取展览建筑案例，包括文字描述、....

本文编号：3918500

资料下载

论文发表

支付宝下载
微信下载
会员下载

本文链接：https://www.wllwen.com/kejilunwen/sgjslw/3918500.html

上一篇：不动产测绘技术及质量控制分析
下一篇：提高钢纤维混凝土早期强度的几点体会