网站数据采集-分析思路/流程

这个视频来总结一下采集一个网站数据等分析思路，也就是拿到一个链接要采集网页中数据的的分析思路和流程。这里只讨论网站，因为我只接触过网站。

只要能看到就能采集下来，无论是自动化，逆向还是复制粘贴又或者是手动抄写。

防是防不住的，只能是加点难度，防止大规模的数据采集。或者只是增加采集的成本。

点开链接，首先要能看到数据，爬虫就是所见即所得，看不到的是无论如何也爬不到的，如果说能爬，那就是骗子。
一般网页数据都是能看到的，然后第二步就是打开浏览器开发者工具，有人也叫它控制台。这个时候可能会遇到无限debugger，内存爆破，防止右键，检测网页大小，网页重定向等问题。前面我们专门有视频讲过和演示过如何过此类干扰，再加上这集主要是总结流程，所以不再赘述。
在顺利看到开发者工具后，我们第三步要做的就是判断页面的数据是随着页面一起返回的还是js动态加载的。有些新手最开始学习的时候，可能在浏览器开发者工具的元素页面发现数据都是在html中的，其实不是我们应该去网络中的页面中看是否有数据。如果有那就是静态页面，只能请求页面后解析页面提取数据。如果没有，那就是动态页面，数据都是js通过xhr动态请求到的然后再插入到页面中的。所以数据请求一般都在xhr栏可以看到。当然有的数据比如说直播的弹幕可能是websocket请求获取的。
在第三步确定了页面数据的加载方式之后，第四步就是获取数据。静态就是请求页面后解析页面提取数据。动态就是请求接口。当然有的动态加载的数据接口返回的数据是加密的。这可能就涉及到js逆向了。但是我一直有个理念就是80%的场景，公司，数据规模，需求都用不到逆向，没必要扣代码掉头发，自动化足矣。我前面的自动化专栏已经完全够用了。
第五步就是请求，应对浏览器指纹，ip封禁等风控。一般小规模数据量几千几万请求量放慢频率足矣。

网站数据采集-分析思路/流程 ​

网站数据采集-分析思路/流程