这篇文章给大家分享的是有关Python爬虫中urllib库怎么用?如何使用Python爬虫中urllib库?的内容,内容简单易懂,我觉得非常实用,所以分享给大家,希望对大家的学习能够带来一定的帮助。让我们一起来学习一下吧!

Python爬虫中urllib库怎么用?如何使用Python爬虫中urllib库?

Python中的urllib库是一个最基本的请求库,它可以和其他库结合使用,基本组成模块分为四种,分别是:urllib.request(请求)、urllib.error(异常处理)、urllib.parse(解析)、urllib.robotparser(robots.txt解析),最后这种并不常见,用的很少。

在python2中,使用urllib库的方式如下:

import urllib2
HTML = urllib2.urlopen('http://www.baidu.com')

而python3又与它有所不同,python2是使用urlib库与urlopen函数结合的方式,在python3中使用方法如下:

import  urllib.request
response = urllib.request.urlopen('http://www.baidu.com')

它是与request库结合使用。

可以使用urllib库爬取一个网页,主要就是根据它的 URL 路径来找到它的网页信息,比如说我们在网上浏览的东西,看似很美好规范,其实它都是由浏览器解释处理展现出来的,说白了它就是一个html代码加上JS、CSS修饰,如果把网页比作一个人,那么 HTML 便是他的骨架,JS 便是他的肌肉,CSS 便是它的衣服。所以最重要的部分是存在于 HTML 中的,下面我们可以举一个例子看看:

import urllib2
HTML = urllib2.urlopen("http://www.baidu.com")
print HTML.read()

真正的程序就两行代码可以将它的网页爬取下来,然后把它保存成 demo.py,进入该文件的目录,然后再执行如下命令。

python demo.py

看完了这篇关于“Python爬虫中urllib库怎么用?如何使用Python爬虫中urllib库?”,相信你对python爬虫Urllib库的使用方法有了一定的了解,想了解更多相关知识,还可以继续关注哦!

更多python相关文章请访问分类:python

【版权声明】本文图文出自大盘站@dapan.cc,转载请注明出处!