博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python简单爬虫编写
阅读量:5821 次
发布时间:2019-06-18

本文共 1504 字,大约阅读时间需要 5 分钟。

 1.主要学习这程序的编写思路

a.读取解释网站

b.找到相关页

c.找到图片链接的元素

d.保存图片到文件夹

.....

将每一个步骤都分解出来,然后用函数去实现,代码易读性高.

##代码尽快运行时会报错,还须修改

 

import urllib.requestimport osdef url_open(url):    #读取解释    req = urllib.request.Request(url) #   req.add_header(\'User-Agent\',\'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/36.0.1985.125 Safari/537.36\')    response = urllib.request.urlopen(req)    html = response.read()    return htmldef get_page(url):   #找到相关页    html = url_open(url)    a = html.find('current-comment-page')    b = html.find(a)    return html[a:b]def find_imgs(url):  #找到图片链接的元素    html = url_open(url)    img_addrs = []    a = html.find('img src=')    while a != -1:        b = html.find('.jpg',a,a +255')        if b !=-1:            img_addrs.append(html[a+9:b+4])        else:            b = a +9        a = html.find('img src=',b')    return img_addrsdef save_imgs(folder, img_addrs):   #保存图片到文件夹    for each in img_addrs:        filename = each.split('\'/\'')        with open(filename,'wb') as f:            img =url_open(each)            f.write(img)def download_mm(folder='OOXX',pages=10):    os.mkdir(folder)    os.chdir(folder)    url = 'http://jandan.net/ooxx/'    page_num = int(get_page(url))    for i in range(pages):        page_num -= i        page_url = url + 'page-' + str(page_num) + '#comments'        img_addrs = find_imgs(page_url)        save_imgs(img_addrs)if __name__ == '__main__':    download_mm()

  

转载于:https://www.cnblogs.com/alan-babyblog/p/5172482.html

你可能感兴趣的文章
开源 免费 java CMS - FreeCMS1.9 移动APP生成栏目列表数据
查看>>
Java IO流详尽解析
查看>>
Linux VSFTP服务器
查看>>
DHCP中继数据包互联网周游记
查看>>
Squid 反向代理服务器配置
查看>>
Java I/O操作
查看>>
Tomcat性能调优
查看>>
项目管理心得
查看>>
Android自学--一篇文章基本掌握所有的常用View组件
查看>>
灰度图像和彩色图像
查看>>
通过vb.net 和NPOI实现对excel的读操作
查看>>
TCP segmentation offload
查看>>
java数据类型
查看>>
数据结构——串的朴素模式和KMP匹配算法
查看>>
FreeMarker-Built-ins for strings
查看>>
验证DataGridView控件的数据输入
查看>>
POJ1033
查看>>
argparse - 命令行选项与参数解析(转)
查看>>
一维数组
查看>>
Linux学习笔记之三
查看>>