[Pholcus爬虫] 应对网站反爬虫的多项策略-白红宇

[Pholcus爬虫] 应对网站反爬虫的多项策略

阅读量：6413 次

发布时间：2019-06-23

本文共 302 字，大约阅读时间需要 1 分钟。

Pholcus应对网站反爬虫的核心思想就是：模仿人工操作

具体应对策略如下：

两次请求之间进行随机暂停，该时间可以在操作界面设置

当不需缓存cookie时，设置Spider.EnableCookie=true，下载器将会自动更换User-Agent

支持代理IP，其可以在操作界面设置更换IP的时间频率

自动添加请求头的Referer信息

下载器除Go原生内核外，还提供了PhantomJS内核，它可以直接提交含有一些隐蔽、加密的请求参数，提供请求通过率

规则内可以通过主动设置定时器，来控制采集时间

转载于:https://my.oschina.net/henrylee2cn/blog/741743

你可能感兴趣的文章

我的友情链接

查看>>

ifconfig:command not found的解决方法

github精选：微信小程序开发技巧（12月31日更新）2016

android之首选项相关 Preferences（二）组织首选项

查看>>

两天时间，安装kivy环境，python3.5不行，只能用python2.7

查看>>

移动电商成电商重点市场

查看>>

Spring MVC数据校验(使用@Validated对@RequestParam参数校验)

查看>>

以中国电影市场托底的阿里影业，国际化算盘打的响

MySQL 8.0新特性--skip scan range access method(七)

查看>>

Here Document

查看>>

MySQL高可用性之keepalived+mysql双主

查看>>

LVS类型之NAT

查看>>