网络爬虫的主要目的就是用来抓妹子图,而“妹子图”网站没有烦人的反爬虫机制,是我选择用来寄生的好网站,而且自从我写出来这个代码,我瘦了两斤我会到处乱说?
实验目标:从5200页爬虫爬到5205页,抓取图片。(5200页是偶家小美人武田玲奈!!)
from bs4 import BeautifulSoup #本次实验的主要捕获方式是用bs4#import requestsimport rei=0for a in range(5200,5206): #设定从5200页翻到5205页# url="http://www.meizitu.com/a/"+str(a)+".html" #比较直白的翻页方式# html=requests.get(url) A='' content=html.text.partition(A)[2] B='' body=content.partition(B)[0] #源代码里的img节点里的title不全相同,采用了partition方式切块,但是这样的情况用Xpath更好# soup=BeautifulSoup(body,"html.parser") pictures=soup.find_all("img") for picture in pictures: # print(picture["src"]) print("Now Downloading:"+str(i)) pic=requests.get(picture["src"]) fp=open("e:/pythonaaa/b/Study & test/"+str(i)+".jpg","wb") fp.write(pic.content) #wb二进制写入搭配content将整个文件抓下来# i=i+1