8 月 2016 - Harold

抓取是采集竞品或其它源网站数据，反抓取就是防止别人的抓取行为。目前来说，没有一家公司在反抓取方面做的比较好。举个例子，搜狗运维部门用机器学习搞反抓取策略，在业界也挺得意的，被我花了一周攻克，只用了四十个IP，一天请求上百万，两个多月了，照样好好的用着。
业界反抓取无非以下几种策略：
1. 按照请求频率封禁IP(现在只有比较low的公司会用这种，这种方法的负面伤害更大）
2. 按照IP和请求头部(agent 等信息）封禁
3. 通过执行Javascript程序注入动态cookie
4. 通过机器学习策略分析用户行为
5. 探测到用户有抓取行为，丢一些假数据给用户，比如某地图商
主流是第三种和第四种，第三种的门槛主要是是需要渲染JS才能得到正确的cookie，而普通抓取程序不具备这个功能，并且渲染JS速度太慢，在大规模抓取中不适用。但是第三种我有一套解决方案，是cookie分发机制，出于一些考虑，这套技术不做分享。（在搜狗公共号抓取中，使用cookie分发机制，四十IP可以做到10个/s 请求速度而不遭遇封禁）

第四种那就要好好伪装自己的请求了，比如请求的refer、user-agent、请求的文件类型等，需要自己去做随机请求，难度不大。

抓取解析，那就太简单了，分析DOM结构、使用正则等等，看你具体使用场景吧。

月度归档： 2016 年 8 月

谈谈抓取与反抓取