听说过python的人肯定也听说过爬虫,那么今天就跟大家唠一唠这个爬虫。
用 python写爬虫程序现在已经是一种很普遍的现象了,大家都希望以此来从网上爬取一些资料,用于数据分析等。
爬虫,第一步就是把目标网址的内容下载下来存储到内存中,但此时它保存的内容只是一堆源代码,那么接下来就要对这些源代码进行解析,再根据自己的需求提取数据,最后将数据保存到文件中。下面给大家简单地举例讲解。
首先找到一个网站,以猫眼电影为例,页面是这样的:
然后我们通过鼠标右键,选择检查来看看它的HTML代码:
现在大家可以看到,它会自己弹出到我们想要的内容上,那接下来我们只要想办法把需要的数据取出来就可以了。下面正式开始!
01 导包
给大家简单介绍一下这两个包。它们是写爬虫程序较为常用的两个包, 第一个包的作用是允许用户发送http请求,获取网络URL资源,不需要为添加URL添加查询字串,也不需要对post数据进行表单编码。BeautifulSoup是python的一个库,最主要的功能是从网页抓取数据。
02 获取源代码
通过请求网址执行上述代码可以得到源代码,大家可以由下图看到它的部分源代码:
03 解析源代码
可以用第一步导入的BeautifulSoup对第二步获得的源代码进行解析,然后可以通过执行第四步看到解析的结果。那么我们继续:
04 查看获取数据
05 查看部分结果
这样就完成了。通过这样简单的四步,大家就可以通过爬虫来获取自己需要的数据了!