小编给大家分享一下python如何做爬虫?python做爬虫的小技巧,希望大家阅读完这篇文章后大所收获,下面让我们一起去探讨吧!

Python如何做爬虫?python做爬虫的小技巧

整体思路流程

下载并安装所需要的python库,包括:

requests库:用于向指定url发起请求

BeautifulSoup库:用于解析返回的网页信息

lxml库:用于解析网页返回结果

pymongo库:用于实现python对MongoDB的操作,对所需要的网页进行请求并解析返回的数据

如果想做成一个小的爬虫,其实不难的,python中有两个库,一用来解析一个用来请求。做小爬虫的第一步就是通过requests这个库去进行请求,然后将返回的数据利用BeautifulSoup库进行一个解析,解析之后通过对于元素的定位和选择来获取所需要的数据元素,进而获取到数据的一个过程。

上面的概念性东西,说明我们可以利用定义不同的爬虫去实现爬取不同页面的信息,并通过程序的控制来实现一个自动化爬虫。下面举个爬虫实例,一起学习下怎么样去实现简单的网页爬虫的制作过程。请看下面例子:

import requests
#通过获取所要爬取的页面的响应信息,使用request库
from bs4 import BeautifulSoup
#通过python中的解析库来对response进行结构化解析(BeautifulSoup库的使用)
start_url = 'http://HH.58.com/sale.shtml'
url_host = 'http://HH.58.com'
#定义一个爬虫函数来获取58页面中的全部大类页面的连接
def get_channel_urls(url):
#使用Requests库来进行一次请求
web_data = requests.get(url)
#使用BeautifulSoup对获取到的页面进行解析
soup = BeautifulSoup(web_data.text, 'lxml')
#根据页面内的定位信息获取到全部大类所对应的连接
urls = soup.select('ul.ym-submnu > li > b > a')
#这两行处理是因为有的标签有链接,但是却是空内容
for link in urls:
if link.text.isspace():
      continue
    else:
      page_url = url_host + link.get('href')
    print(page_url)

以上就是有关“python如何做爬虫?python做爬虫的小技巧”的相关内容了,希望对大家有所帮助。

更多python相关文章请访问分类:python

【版权声明】本文图文出自大盘站@dapan.cc,转载请注明出处!