博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
[Pholcus爬虫] 应对网站反爬虫的多项策略
阅读量:6413 次
发布时间:2019-06-23

本文共 302 字,大约阅读时间需要 1 分钟。

hot3.png

Pholcus应对网站反爬虫的核心思想就是:模仿人工操作

具体应对策略如下:

  1. 两次请求之间进行随机暂停 ,该时间可以在操作界面设置
  2. 当不需缓存cookie时,设置Spider.EnableCookie=true,下载器将会自动更换User-Agent
  3. 支持代理IP,其可以在操作界面设置更换IP的时间频率
  4. 自动添加请求头的Referer信息
  5. 下载器除Go原生内核外,还提供了PhantomJS内核,它可以直接提交含有一些隐蔽、加密的请求参数,提供请求通过率
  6. 规则内可以通过主动设置定时器,来控制采集时间

转载于:https://my.oschina.net/henrylee2cn/blog/741743

你可能感兴趣的文章
我的友情链接
查看>>
ifconfig:command not found的解决方法
查看>>
js使用正则表达式判断手机和固话格式
查看>>
计算机是怎么存储数字的
查看>>
github精选:微信小程序开发技巧(12月31日更新)2016
查看>>
struts2 中文 url参数
查看>>
CentOS 6系统优化脚本
查看>>
shell 脚本练习3
查看>>
android之首选项相关 Preferences(二)组织首选项
查看>>
两天时间,安装kivy环境,python3.5不行,只能用python2.7
查看>>
移动电商成电商重点市场
查看>>
Spring MVC数据校验(使用@Validated对@RequestParam参数校验)
查看>>
以中国电影市场托底的阿里影业,国际化算盘打的响
查看>>
ipvsadm命令参考
查看>>
实现loading的代码
查看>>
javascript中关于变量定义及范围
查看>>
MySQL 8.0新特性--skip scan range access method(七)
查看>>
Here Document
查看>>
MySQL高可用性之keepalived+mysql双主
查看>>
LVS类型之NAT
查看>>