网络爬虫反爬策略研究
作 者:胡俊潇[1];陈国伟[1]
作者机构:[1]中国传媒大学,北京100024
出 版 物:科技创新与应用
年 卷 期:2019年 第15期
摘 要:网络爬虫在工作时会对目标站点发送大量的请求,这样的爬虫工作方式决定了其会消耗不少目标站点的服务器资源,这对于一个服务器不大的中小型站点来说负载是巨大的,甚至会导致该站点直接崩溃。另外某些网站也不希望自己的内容被轻易的获取,如电商网站的交易额,这些数据是一个互联网产品的核心,因此采取一定的手段保护敏感的数据。因此很多网站都在站点中加入了反爬机制。例如User-Agent+Referer检测、账号登陆及Cookie验证等。文章讨论了几种主流的方法来避免爬虫被目标站点服务器封禁,从而保证爬虫的正常运行。
页 码:137-138页
主 题 词:网络爬虫;反爬虫;抓取策略
因篇幅问题不能全部显示,请点此查看更多更全内容