Skip to content

网站数据采集-分析思路/流程

这个视频来总结一下采集一个网站数据等分析思路,也就是拿到一个链接要采集网页中数据的的分析思路和流程。这里只讨论网站,因为我只接触过网站。

只要能看到就能采集下来,无论是自动化,逆向还是复制粘贴又或者是手动抄写。

防是防不住的,只能是加点难度,防止大规模的数据采集。或者只是增加采集的成本。

  • 点开链接,首先要能看到数据,爬虫就是所见即所得,看不到的是无论如何也爬不到的,如果说能爬,那就是骗子。
  • 一般网页数据都是能看到的,然后第二步就是打开浏览器开发者工具,有人也叫它控制台。这个时候可能会遇到无限debugger,内存爆破,防止右键,检测网页大小,网页重定向等问题。前面我们专门有视频讲过和演示过如何过此类干扰,再加上这集主要是总结流程,所以不再赘述。
  • 在顺利看到开发者工具后,我们第三步要做的就是判断页面的数据是随着页面一起返回的还是js动态加载的。有些新手最开始学习的时候,可能在浏览器开发者工具的元素页面发现数据都是在html中的,其实不是我们应该去网络中的页面中看是否有数据。如果有那就是静态页面,只能请求页面后解析页面提取数据。如果没有,那就是动态页面,数据都是js通过xhr动态请求到的然后再插入到页面中的。所以数据请求一般都在xhr栏可以看到。当然有的数据比如说直播的弹幕可能是websocket请求获取的。
  • 在第三步确定了页面数据的加载方式之后,第四步就是获取数据。静态就是请求页面后解析页面提取数据。动态就是请求接口。当然有的动态加载的数据接口返回的数据是加密的。这可能就涉及到js逆向了。但是我一直有个理念就是80%的场景,公司,数据规模,需求都用不到逆向,没必要扣代码掉头发,自动化足矣。我前面的自动化专栏已经完全够用了。
  • 第五步就是请求,应对浏览器指纹,ip封禁等风控。一般小规模数据量几千几万请求量放慢频率足矣。

本站收录内容源自互联网,不对其网站内容或交易负责。 | 如有内容侵犯权益,请联系站长删除相关内容!