分类最新

标签云

爬知乎问题，淘宝上有哪些「价格不高，格调很高」的东西

时间：2017-06-22 作者：包包 212人已阅读学习笔记

最近在知乎上面看到了一篇文章淘宝上有哪些「价格不高，格调很高」的东西？，对于平时喜欢买买买的人来说，这些经过用户精心挑选，小众又奇特的东西非常具有吸引力。

知乎瀑布流的加载方式，再加上自动加载图片，自动收缩伸展列表块的功能。在国内知名的网站中，算是做得非常出色的，阅读的时候觉得用户体验非常好。

这篇文章里面有737个回答，里面的精华非常多，要读完这些文章至少得花上好几个小时的时间，正常情况下我又不可能花一整天的时间来读，而是一般选择在碎片时间看一下。

用瀑布流加载的网站有个弊端，如果从头到尾的读的话，几乎感觉不到分页，非常的顺畅。而如果间断性阅读的话，每次都要从第一页开始翻，对于动不动就长篇大论的知乎回答来说，拉拉拉挺让人感觉崩溃的，而且里面大篇幅的图片加载的时候那个速度也是问题。要是遇到网络卡，有时候浏览器都会死掉，此番艰难的拉拉拉又得重来一次。而使用知乎的手机App，这方面的体验也没有很好。

所以我就想还是先把这篇文章里面的图文都保存下来，方便我随时想看就看，想看哪里就看哪里。

分析链接，识别抓取文本的连接串

通过浏览器的开发者模式，可以观察用户获取图文详情的连接

我看了一下，这个名字为**answer**的连接就是抓取图文的连接，里面包含有页码和页数等的信息，而且返回的格式为json。但是单独通过浏览器标签页打开的时候却报了401授权错误，说明在浏览器头包含了一些身份的信息。于是，我又再次查看这个连接的请求头和参数。包含的信息如下图：

在图中可以看到除了常规的类型，cookie等，还有一个**authorization**，这个信息应该是基于某种机制生成，用于身份认证的，所以在写代码伪造浏览器的request头的时候，这个信息也要附带上去。

抓取数据，分抓取文本数据和分析文字抓取图片两步

写完了代码之后，便开始运行程序把文本数据抓下来，这里我采用的是翻一页，保存一个文本文件的方式。为了不被反爬虫机制轻易的发现，我决定温柔一点，抓取每一页之间设定3~8秒随机时间的延时。虽然只是抓取一点内容，就算被发现了也没有人理我，而且也不用登录，封我IP大不了就重启一下moden，但是这个延时再慢也比手动拉要快得多，而且有些习惯还是一开始就养成比较好。