Python爬虫学习笔记 1-1:什么是爬虫

Published On 2019/08/11 Sunday, Singapore

本节从以下三点来全面介绍爬虫:1 爬虫的定义和应用场景 2 爬虫基本知识 3 爬虫协议。

本文为Datacatsle Python爬虫(入门+进阶)课程学习笔记。



爬虫的定义和应用场景

网络爬虫是一种按照一定的规则,自动地抓取网页信息的程序或者脚本。互联网上有30%的流量为来自爬虫的流量。常见的爬虫应用场景:

这些应用场景可以归纳为以下三种类型:



爬虫基本知识

网址构成。一个网站的网址一般由域名+子页面所构成。在访问同一网站的不同网页时,域名一般是不会改变的,因此爬虫所需要解析是需要爬取页面的入口url,只有解析出来各个页面的入口,才能开始我们的爬虫。

网页加载方法。同步加载:改变网址上的某些参数会导致网页发生改变,例如豆瓣读书评论。 异步加载:改变网址上的参数不会使网页发生改变,例如拉钩网。只有同步加载的数据才能直接在网页源代码中直接查看到,而异步加载的数据无法在网页源代码中直接查看。

网页源码的构成。 在网页中右键点击查看网页源码,可以查看到网页的源代码信息。 源代码一般由三个部分组成,分别是:

查看网页请求。以Chrome浏览器为例,在网页上点击鼠标右键,检查(或者直接F12),选择Network,刷新页面,选择All下面的第一个链接,这样就可以看到网页的各种请求信息。

网页请求过程。 从浏览器输入网址、回车后,到用户看到网页内容,经过的步骤如下:1)DNS解析,获取IP地址;2)建立TCP连接,3次握手;3)发送HTTP请求报文;4)服务器接收请求并作处理;5)服务器发送HTTP响应报文;6)断开TCP连接,4次握手。

<



爬虫协议

什么是爬虫协议:爬虫协议,也被叫做robots协议,用以申明哪些页面可以抓取,哪些页面不能抓取。

如何查看爬虫协议:在访问网站域名后加上robots.txt即可,例如查看百度网站的爬虫协议:https://www.baidu.com/robots.txt

爬虫协议样例

拦截所有的机器人: 
User-agent: * 
Disallow: /

允许所有的机器人: 
User-agent: * 
Disallow:

爬虫建议



为什么使用python爬虫?

python适合做爬虫的原因





💚 Back to Home