建筑类网站聚焦爬虫策略研究
发布时间:2024-03-03 23:11
在工作和研究中持续更新大量的资料和数据是建筑师的职业基础。传统人工搜索互联网的方式工作量大且挖掘率低,对网站数据源的利用往往不够充分。国内大部分建筑类网站采用HTML文本标记数据,对HTML采用网络聚焦爬虫有助于建筑师高效定位并规范化储存专业数据。通过对建筑类主流网站结构特征进行分析,总结建筑学3种专业爬虫需求。基于Python的语言特征,提出公开数据类和建筑档案类2种爬虫策略。实测结果表明爬虫策略具有数据采集实时性好、易管理维护的优点,同时均运行高效且稳定,可为建筑专业大数据分析提供更多高质量的数据源。
【文章页数】:6 页
【部分图文】:
本文编号:3918500
【文章页数】:6 页
【部分图文】:
图1anjuke.com的部分robots协议内容
尊重robots协议的科学爬虫是实现用户与服务器间良性互动的基础。robots协议(robotsexclusionprotocol,网络爬虫排除标准)是互联网爬虫的一项公认的道德规范,用于公示允许爬虫的内容。如图1所示anjuke.com的部分robots协议内容,禁止了具体....
图2网页请求数据方式
该网站主要的源数据基本记录在HTML文档中。因此,对HTML数据的爬虫策略主要分为四步:发出请求、解析文档、定位数据、规范存储。首先,通过网站的URL向网站服务器发出请求,征求服务器响应。如图2、3所示,当RequestMethod显示为“GET”时,即为可请求的HTML文档。....
图3网页响应状态码
图2网页请求数据方式解码所得HTML文档数据可用第三方的bs库解析为bs4.BeautifulSoup类,即一种容错能力较强的数据。解析后的网页数据仍量大且杂乱,在获取数据时需锁定所需数据。通常先找寻数据的上级标记(tag),再往下级缩小范围定位每个数据,从而避免数据干扰。有....
图4数据爬虫代码核心部分
档案爬虫策略请求服务器与解析HTML的方式与数据类策略相近。在此基础上,增加网页列表的筛选和图文资料的分渠处理两步。这些内容重复判断较多,写成一条主程序既不简洁也不便维护。因此在建立主程序前需要先封装成几个小程序。本文以zhulong.com为例,爬取展览建筑案例,包括文字描述、....
本文编号:3918500
本文链接:https://www.wllwen.com/kejilunwen/sgjslw/3918500.html