有时或基于以下凡此种种需求,我们会想要去抓取新浪微博的内容:
- 产品冷启动,导入外部数据,而非从头积累;
- 通过大数据+语义分析获取用户兴趣行为偏好,提供智能推荐;
- 监控微博舆情,对特定关键词或是用户行为进行响应;etc
想必新浪深知微博内容本身是最其有价值的资产,一旦被竞争对手大批量抓取导入,则辛苦建立起的门槛将瞬间化作他人之嫁衣,因此做了非常繁复的安全保护,包括强制登录跳转认证、跨域检测、cookie 植入、禁止账号密码登录而启用 OAuth2.0 等等。
近期个人有一些抓取需求,在查询大量过时的网络资料测试无果后,决定另辟蹊径完成这一目标,并最终测试成功。在此分享出来。(这篇文章将提供解决问题的方法思路,但不会给出具体代码。伸手党请移步百度或 Github。)
你需要准备:一个个人微博账号,我们将透过它去访问其他用户页面,从而抓取。除此之外,别无所求。
Continue reading “Growth Hacker 奇技淫巧一则:零授权,抓取新浪微博任何用户的微博内容”