爬虫第1课：论爬虫与破解的区别

这篇文章本质是有概念性的，我不会给大家讲python requests库的用法，也不会给大家讲你需要对逆向而准备的前端基础。而是告诉大家什么是爬虫。他和所谓的破解、黑客又有什么区别。

所谓的爬虫和破解，其本质都可以看作是后端的工作之一。其本质便是对数据的处理。相对而言，我们不涉及到页面的渲染，所以我们用的最多的是Python语言。这不仅仅是因为他够简单，还有就是他能够我们满足我们的需求，因为Python主要的擅长的是处理数据，而不是渲染图形。

首先爬虫，它便是从网站上去抓取一些信息，比如像百度的热点，抖音的评论等等。嗯凡是你在网站上能够看到的数据，我们都可以通过爬虫的方式将它变成可处理的。程序容易识别的格式。（可能这里大家还没有完全理解爬虫的概念，不要着急，我们会在后面爬出的意义给大家详细讲解）

那么这里可以引出爬虫与破解的区别，两者都是获取数据，不用渲染页面。但是爬虫可以说是所见即所得，他获取的都是我们能够看到的数据，换言之，是你所在权限下可以得到的数据。而破解所经常伴随的一句话便是越权。你可以认为他是你所在权限无法获取的数据。

这句话也可以帮你判断你的需求能否通过爬虫来实现。比如你想通过爬虫整理自己的各学期一期末考试成绩，这是爬虫可以做到的。但是如果你想查看别人的成绩，如果学校没有公开，那么爬虫是解决不了的。只有通过破解越权等形式，获取到其他账号的权限。你才有可能看到别人的成绩。

其实归根结底你可以把爬虫看作一种数据整理的形式，那些数据本身你就可以得到，只是他们是原本是签的页面上，只能够你来阅读，而通过爬虫你可以把它整理成一种数据格式，让程序代码本身也可以处理它。

然后我们讲一讲爬虫的意义。让你更深刻的理解。其实说白了，整理成规范的数据，99%的情况都是为了对接其他的程序，当然也有1%的概率是你自己留着看。比如我现在要给AI增加一个知识库，来源便是互联网上的数据。那我们要怎么做呢？我们当然可以在旁边弄一个电脑，然后截屏把图片扔给一个图像识别的AI，让他它整理出文字，但很明显我们可以通过更高效的爬虫方式，把页面上的数据处理成更高效的形式。直接给AI，没错，这便是目前主流AI的联网搜索功能的实现方式。就是通过爬虫实现的。

以上便是这篇文章的主要内容。通过以上内容，希望你能够理解爬虫与破解的区别，所谓爬虫的所见即所得，爬虫的本质是数据整理，让数据成为程序可识别的格式。

本篇文章不涉及任何具体的知识点，但我仍认为基础的体系是学习细节的根基。你明白了是什么、为什么、怎么做？才写得出刻骨铭心，写得出逻辑严谨，不是吗？

祝各位前程似锦。