这篇文章给大家分享的是有关Python爬虫中urllib库怎么用?如何使用Python爬虫中urllib库?的内容,内容简单易懂,我觉得非常实用,所以分享给大家,希望对大家的学习能够带来一定的帮助。让我们一起来学习一下吧!
Python中的urllib库是一个最基本的请求库,它可以和其他库结合使用,基本组成模块分为四种,分别是:urllib.request(请求)、urllib.error(异常处理)、urllib.parse(解析)、urllib.robotparser(robots.txt解析),最后这种并不常见,用的很少。
在python2中,使用urllib库的方式如下:
import urllib2 HTML = urllib2.urlopen('http://www.baidu.com')
而python3又与它有所不同,python2是使用urlib库与urlopen函数结合的方式,在python3中使用方法如下:
import urllib.request response = urllib.request.urlopen('http://www.baidu.com')
它是与request库结合使用。
可以使用urllib库爬取一个网页,主要就是根据它的 URL 路径来找到它的网页信息,比如说我们在网上浏览的东西,看似很美好规范,其实它都是由浏览器解释处理展现出来的,说白了它就是一个html代码加上JS、CSS修饰,如果把网页比作一个人,那么 HTML 便是他的骨架,JS 便是他的肌肉,CSS 便是它的衣服。所以最重要的部分是存在于 HTML 中的,下面我们可以举一个例子看看:
import urllib2 HTML = urllib2.urlopen("http://www.baidu.com") print HTML.read()
真正的程序就两行代码可以将它的网页爬取下来,然后把它保存成 demo.py,进入该文件的目录,然后再执行如下命令。
python demo.py
看完了这篇关于“Python爬虫中urllib库怎么用?如何使用Python爬虫中urllib库?”,相信你对python爬虫Urllib库的使用方法有了一定的了解,想了解更多相关知识,还可以继续关注哦!
更多python相关文章请访问分类:python
【版权声明】本文图文出自大盘站@dapan.cc,转载请注明出处!