最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 科技 - 知识百科 - 正文

Python使用Scrapy爬取妹子图

来源:动视网 责编:小采 时间:2020-11-27 14:41:15
文档

Python使用Scrapy爬取妹子图

Python使用Scrapy爬取妹子图:Python Scrapy爬虫,听说妹子图挺火,我整站爬取了,上周一共搞了大概8000多张图片。和大家分享一下。 核心爬虫代码 # -*- coding: utf-8 -*- from scrapy.selector import Selector import scrapy from scrapy.cont
推荐度:
导读Python使用Scrapy爬取妹子图:Python Scrapy爬虫,听说妹子图挺火,我整站爬取了,上周一共搞了大概8000多张图片。和大家分享一下。 核心爬虫代码 # -*- coding: utf-8 -*- from scrapy.selector import Selector import scrapy from scrapy.cont


Python Scrapy爬虫,听说妹子图挺火,我整站爬取了,上周一共搞了大概8000多张图片。和大家分享一下。

核心爬虫代码

# -*- coding: utf-8 -*-
from scrapy.selector import Selector
import scrapy
from scrapy.contrib.loader import ItemLoader, Identity
from fun.items import MeizituItem
 
 
class MeizituSpider(scrapy.Spider):
 name = "meizitu"
 allowed_domains = ["meizitu.com"]
 start_urls = (
 'http://www.meizitu.com/',
 )
 
 def parse(self, response):
 sel = Selector(response)
 for link in sel.xpath('//h2/a/@href').extract():
 request = scrapy.Request(link, callback=self.parse_item)
 yield request
 
 pages = sel.xpath("//div[@class='navigation']/div[@id='wp_page_numbers']/ul/li/a/@href").extract()
 print('pages: %s' % pages)
 if len(pages) > 2:
 page_link = pages[-2]
 page_link = page_link.replace('/a/', '') 
 request = scrapy.Request('http://www.meizitu.com/a/%s' % page_link, callback=self.parse)
 yield request
 
 def parse_item(self, response):
 l = ItemLoader(item=MeizituItem(), response=response)
 l.add_xpath('name', '//h2/a/text()')
 l.add_xpath('tags', "//div[@id='maincontent']/div[@class='postmeta clearfix']/div[@class='metaRight']/p")
 l.add_xpath('image_urls', "//div[@id='picture']/p/img/@src", Identity())
 
 l.add_value('url', response.url)
 return l.load_item()

项目地址:https://github.com/ZhangBohan/fun_crawler

以上所述就是本文的全部内容了,希望大家能够喜欢。

文档

Python使用Scrapy爬取妹子图

Python使用Scrapy爬取妹子图:Python Scrapy爬虫,听说妹子图挺火,我整站爬取了,上周一共搞了大概8000多张图片。和大家分享一下。 核心爬虫代码 # -*- coding: utf-8 -*- from scrapy.selector import Selector import scrapy from scrapy.cont
推荐度:
标签: 图片 python 爬虫
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top