基于Python的网络爬虫

一、实验说明

1.1. 环境登录

无需密码自动登录，系统用户名shiyanlou

1.2. 环境介绍

本实验环境采用带桌面的Ubuntu Linux环境，实验中会用到桌面上的程序：

Xfce 终端: Linux命令行终端，打开后会进入 shell 环境，可以使用Linux命令
Firefox：浏览器，可以用在需要前端界面的课程里，只需要打开环境里写的HTML/JS页面即可
GVim：非常好用的编辑器，最简单的用法可以参考课程Vim编辑器

1.3. 环境使用

使用GVim编辑器输入实验所需的代码及文件，使用终端运行所需命令进行操作。

实验报告可以在个人主页中查看，其中含有每次实验的截图及笔记，以及每次实验的有效学习时间（指的是在实验桌面内操作的时间，如果没有操作，系统会记录为发呆时间）。这些都是您学习的真实性证明。

实验楼虚拟机，自带了python2.X和python3.X版本，无需安装该实验建议使用 python2.7 版本，也就是默认版本

二、课程介绍

组图页面的下载，上一节已经完成了已经完成了，这节呢，需要做的蛮简单，但是任务有两个： - 获取该标签的全部链接地址 - 获取每个链接页面的全部组图链接地址

观察下图

做个简答的思路分析：

首页链接就是meizi.html，不过后面2、3、4、5、6的链接，只是后缀，我们需要简单做个拼接，得到完整的链接脚本。另外，当前页面就是1，所以1的链接为thisclass，我们采用的是从标签首页进去，然后直接获取 >=2 的链接，利用标签首页地址，拼接得到标签的所有完整链接地址，这是第一步，得到所有标签完整链接路径。
每个链接里面，会有各组图套图的路径，我们又需要从每个路径里面全部读取出来，再看下图

其实就是在ul标签的多个li，拿到ul标签的代码就行

三、代码详解

先附上获取标签链接的代码，并给出详细解析

第一个代码块：

文件名：meizi_series_nextpage
import re
import urllib2
#这个呢，是获取组图套图的代码，是下一个需要显示的代码块
import meizi_series_getpage
#同样的，这里是加载链接防超时，和上一节一样
def loadurl(url):
    try:
        conn = urllib2.urlopen(url, timeout=5)
        html = conn.read()
        return html
    except urllib2.URLError:
        return ""
    except Exception:
        print("unkown exception in conn.read()")
        return ""

#上述代码中，最后还有一个except Exception，用于处理URLErro类无法捕捉的其他异常。感谢实验楼用户@caitao。

#下面的这个path指的是保存本地的文件路径，我在第一小节已经讲过了，还记得么？跟着代码再将一次吧
def nextpage(url,path):
    reNextLink = "<a.*?href='(.*?)'>.*?</a>"
    #获取reNextPage里的标签的全部链接
    reNextPage = '<div.*?id="wp_page_number.*?>.*?<ul>(.*?)</ul>'
    #获取ul标签里面的内容，里面包含了所有我们需要的链接，找到wp_page_number就可以了
    #下面目的是获取链接名，组合传入路径得到当前路径名，解释：匹配a到z字符，>=1个
    searchPathTail = '.*/([a-z]+).*?.html'
    #获取传入的链接尾巴
    searchurltail = '.*/(.*?.html)'
    #获取传入的链接头部
    searchhead = '(.*)/.*?.html'
    #分开头和尾，是因为在获取当前标签的所有页码，都不是完整的，而是尾部链接，需要用尾部和头部链接拼凑成完整的链接。头部链接，就是传入链接的头部，而且传入的是第一个完整链接，页面1里面又没有尾部链接，所有传入链接的尾部，也需要找出
    pathTail = re.findall(searchPathTail,url,re.S)
    urlTail = re.findall(searchurltail,url,re.S)
    urlhead = re.findall(searchhead,url,re.S)
    #从传入文件夹路径和从链接中分析出的文件名，得到当前文件夹路径，保存到path中
    path = path + '/' +pathTail[0]
    print path
    #标签页面的存储列表nextpage
    nextpageurl = []
    html = ''
    while True:
        html = loadurl(url)
        if html == '':
            print 'load', url,'error'
            continue
        else:
            break
    nextPage = re.findall(reNextPage,html,re.S)
    nextLink = re.findall(reNextLink,nextPage[0],re.S)
    nextLink.append(urlTail[0])
    #这一段是将标签页码的所有尾部链接保存到nextLink中，然后下面的for循环，将完整的url链接，存储到nextpageurl中
    nextLink = sorted(list(set(nextLink)))
    for i in nextLink:
        nextpageurl.append(urlhead[0]+"/"+i)
    #将url链接和对应的文件路径传入"获取标签第n页的所有组图链接"的模板中，引号标记的，就是下一个代码块
    for i in nextpageurl:
        print i
        meizi_series_getpage.tag_series(i,path)

第二个代码块

#文件名：meizi_series_getpage
import re
import urllib2
import meizi_page_download

def loadurl(url):
    #依旧的，防超时和循环加载
    try:
        conn = urllib2.urlopen(url,timeout=5)
        html = conn.read()
        return html
    except urllib2.URLError:
        return ''
    except Exception:
        print("unkown exception in conn.read()")
        return ''

#这个函数，简单点就是根据套图链接和传入的路径，得到套图文件夹路径，再传给上一节的图片下载模板
def oneOfSeries(urllist,path):
    searchname = '.*/(.*?).html'
    current_path = '' 
    for url in urllist:
        try:
            name = re.findall(searchname,url,re.S)
            current_path = path + '/' + name[0]
            meizi_page_download.picurl(url,current_path)
        except urllib2.URLError:
            pass

#传入标签的第n页和文件夹路径，获取所有套图url链接，和分析出对应的文件夹路径，传给我们底层的图片下载模板（也就是上一节啦）
def tag_series(url,path):
    #这里是直接匹配出套图的链接，直接，注意是直接，最好是将结果和源码对下结果，防止遗漏和多出
    reSeriesList = '<div .*?class="pic".*?>.*?<a.*?href="(.*?)".*?target.*?>'
    html = ''
    while True:
        html = loadurl(url)
        if html == '':
            print 'load', url,'error'
            continue
        else:
            break
    seriesList = re.findall(reSeriesList,html,re.S)
    if len(seriesList) ==0:
        pass
    else:
        oneOfSeries(seriesList,path)

实验楼环境运行截图，奉上：实验楼运行截图（第三小节）

四、总结

一共四步： - 从传入的文件夹路径和标签链接，得到当前标签的文件夹路径 - 从传入的标签链接，得到所有的标签页的url链接 - 从传入的标签第n页的url链接，得到所有的套图url链接 - 从套图url链接和传入的文件夹路径，得到套图的文件夹路径 - 将套图文件夹路径和套图的url链接，传给图片下载的模板（上一节我们完成的那个代码文件）本节到此结束了，下一节就是"高层：从顶层域获取所有的标签页"，基础爬虫的最后一个...

Follow me, let's go...

标签网页的获取单网页链接