标签网页的获取单网页链接

一、实验说明

1.1. 环境登录

无需密码自动登录,系统用户名shiyanlou

1.2. 环境介绍

本实验环境采用带桌面的Ubuntu Linux环境,实验中会用到桌面上的程序:

  1. Xfce 终端: Linux命令行终端,打开后会进入 shell 环境,可以使用Linux命令
  2. Firefox:浏览器,可以用在需要前端界面的课程里,只需要打开环境里写的HTML/JS页面即可
  3. GVim:非常好用的编辑器,最简单的用法可以参考课程Vim编辑器

1.3. 环境使用

使用GVim编辑器输入实验所需的代码及文件,使用终端运行所需命令进行操作。

实验报告可以在个人主页中查看,其中含有每次实验的截图及笔记,以及每次实验的有效学习时间(指的是在实验桌面内操作的时间,如果没有操作,系统会记录为发呆时间)。这些都是您学习的真实性证明。

实验楼虚拟机,自带了python2.X和python3.X版本,无需安装 该实验建议使用 python2.7 版本, 也就是默认版本

二、课程介绍

组图页面的下载,上一节已经完成了已经完成了,这节呢,需要做的蛮简单,但是任务有两个: - 获取该标签的全部链接地址 - 获取每个链接页面的全部组图链接地址

观察下图

此处输入图片的描述

做个简答的思路分析:

  • 首页链接就是meizi.html,不过后面2、3、4、5、6的链接,只是后缀,我们需要简单做个拼接,得到完整的链接脚本。另外,当前页面就是1,所以1的链接为thisclass,我们采用的是从标签首页进去,然后直接获取 >=2 的链接,利用标签首页地址,拼接得到标签的所有完整链接地址,这是第一步,得到所有标签完整链接路径。
  • 每个链接里面,会有各组图套图的路径,我们又需要从每个路径里面全部读取出来,再看下图

    组图链接地址

其实就是在ul标签的多个li,拿到ul标签的代码就行

三、代码详解

先附上获取标签链接的代码,并给出详细解析

第一个代码块:

文件名:meizi_series_nextpage
import re
import urllib2
#这个呢,是获取组图套图的代码,是下一个需要显示的代码块
import meizi_series_getpage
#同样的,这里是加载链接防超时,和上一节一样
def loadurl(url):
    try:
        conn = urllib2.urlopen(url, timeout=5)
        html = conn.read()
        return html
    except urllib2.URLError:
        return ""
    except Exception:
        print("unkown exception in conn.read()")
        return ""

#上述代码中,最后还有一个except Exception,用于处理URLErro类无法捕捉的其他异常。感谢实验楼用户@caitao。

#下面的这个path指的是保存本地的文件路径,我在第一小节已经讲过了,还记得么?跟着代码再将一次吧
def nextpage(url,path):
    reNextLink = "<a.*?href='(.*?)'>.*?</a>"
    #获取reNextPage里的标签的全部链接
    reNextPage = '<div.*?id="wp_page_number.*?>.*?<ul>(.*?)</ul>'
    #获取ul标签里面的内容,里面包含了所有我们需要的链接,找到wp_page_number就可以了
    #下面目的是获取链接名,组合传入路径得到当前路径名,解释:匹配a到z字符,>=1个
    searchPathTail = '.*/([a-z]+).*?.html'
    #获取传入的链接尾巴
    searchurltail = '.*/(.*?.html)'
    #获取传入的链接头部
    searchhead = '(.*)/.*?.html'
    #分开头和尾,是因为在获取当前标签的所有页码,都不是完整的,而是尾部链接,需要用尾部和头部链接拼凑成完整的链接。头部链接,就是传入链接的头部,而且传入的是第一个完整链接,页面1里面又没有尾部链接,所有传入链接的尾部,也需要找出
    pathTail = re.findall(searchPathTail,url,re.S)
    urlTail = re.findall(searchurltail,url,re.S)
    urlhead = re.findall(searchhead,url,re.S)
    #从传入文件夹路径和从链接中分析出的文件名,得到当前文件夹路径,保存到path中
    path = path + '/' +pathTail[0]
    print path
    #标签页面的存储列表nextpage
    nextpageurl = []
    html = ''
    while True:
        html = loadurl(url)
        if html == '':
            print 'load', url,'error'
            continue
        else:
            break
    nextPage = re.findall(reNextPage,html,re.S)
    nextLink = re.findall(reNextLink,nextPage[0],re.S)
    nextLink.append(urlTail[0])
    #这一段是将标签页码的所有尾部链接保存到nextLink中,然后下面的for循环,将完整的url链接,存储到nextpageurl中
    nextLink = sorted(list(set(nextLink)))
    for i in nextLink:
        nextpageurl.append(urlhead[0]+"/"+i)
    #将url链接和对应的文件路径传入"获取标签第n页的所有组图链接"的模板中,引号标记的,就是下一个代码块
    for i in nextpageurl:
        print i
        meizi_series_getpage.tag_series(i,path)

第二个代码块

#文件名:meizi_series_getpage
import re
import urllib2
import meizi_page_download

def loadurl(url):
    #依旧的,防超时和循环加载
    try:
        conn = urllib2.urlopen(url,timeout=5)
        html = conn.read()
        return html
    except urllib2.URLError:
        return ''
    except Exception:
        print("unkown exception in conn.read()")
        return ''

#这个函数,简单点就是根据套图链接和传入的路径,得到套图文件夹路径,再传给上一节的图片下载模板
def oneOfSeries(urllist,path):
    searchname = '.*/(.*?).html'
    current_path = '' 
    for url in urllist:
        try:
            name = re.findall(searchname,url,re.S)
            current_path = path + '/' + name[0]
            meizi_page_download.picurl(url,current_path)
        except urllib2.URLError:
            pass

#传入标签的第n页和文件夹路径,获取所有套图url链接,和分析出对应的文件夹路径,传给我们底层的图片下载模板(也就是上一节啦)
def tag_series(url,path):
    #这里是直接匹配出套图的链接,直接,注意是直接,最好是将结果和源码对下结果,防止遗漏和多出
    reSeriesList = '<div .*?class="pic".*?>.*?<a.*?href="(.*?)".*?target.*?>'
    html = ''
    while True:
        html = loadurl(url)
        if html == '':
            print 'load', url,'error'
            continue
        else:
            break
    seriesList = re.findall(reSeriesList,html,re.S)
    if len(seriesList) ==0:
        pass
    else:
        oneOfSeries(seriesList,path)

实验楼环境运行截图,奉上: 实验楼运行截图(第三小节)

四、总结

一共四步: - 从传入的文件夹路径和标签链接,得到当前标签的文件夹路径 - 从传入的标签链接,得到所有的标签页的url链接 - 从传入的标签第n页的url链接,得到所有的套图url链接 - 从套图url链接和传入的文件夹路径,得到套图的文件夹路径 - 将套图文件夹路径和套图的url链接,传给图片下载的模板(上一节我们完成的那个代码文件) 本节到此结束了,下一节就是"高层:从顶层域获取所有的标签页",基础爬虫的最后一个...

Follow me, let's go...

版权声明:允许转载,转载请注明出处 —— 《基于Python的网络爬虫》: 标签网页的获取单网页链接

Copyright @2016-2017 | 赣ICP备16003025号