最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 科技 - 知识百科 - 正文

编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法

来源:动视网 责编:小采 时间:2020-11-27 14:35:14
文档

编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法

编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法:抓取豆瓣电影TOP100 一、分析豆瓣top页面,构建程序结构 1.首先打开网页http://movie.douban.com/top250?start,也就是top页面 然后试着点击到top100的页面,注意带top100的链接依次为 http://movie.douban.com/top25
推荐度:
导读编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法:抓取豆瓣电影TOP100 一、分析豆瓣top页面,构建程序结构 1.首先打开网页http://movie.douban.com/top250?start,也就是top页面 然后试着点击到top100的页面,注意带top100的链接依次为 http://movie.douban.com/top25


抓取豆瓣电影TOP100
一、分析豆瓣top页面,构建程序结构
1.首先打开网页http://movie.douban.com/top250?start,也就是top页面
然后试着点击到top100的页面,注意带top100的链接依次为

http://movie.douban.com/top250?start=0
http://movie.douban.com/top250?start=25
http://movie.douban.com/top250?start=50
http://movie.douban.com/top250?start=75

2.然后通过查看源码,发现电影名的代码如下:

肖申克的救赎
/ The Shawshank Redemption
如图,因为有一些英文名等描述,通过正则抓取有些干扰,可能还需要后续过滤。

根据以上信息,此程序主要分以下3个步骤:

二、构建url地址池

  • 抓取top100电影名称
  • 依次打印输出
  • 依次写出代码

    1.构建url地址池。代码如下:

    import urllib2
    import re
    # ----------确定url地址池------------
    pre_url = 'http://movie.douban.com/top250?start='
    top_urls = []
    # 因为top100,每页25部电影,故为4页,从零开始
    for num in range(4):
     top_urls.append(pre_url + str(num * 25))
    

    2.抓取top100电影名称

    # ------------抓取top100电影名称----------
    top_content = []
    top_tag = re.compile(r'(.+?)')
    for url in top_urls:
     content = urllib2.urlopen(url).read()
     pre_content = re.findall(top_tag, content)
     # 过滤不符合条件的list,得到最后的top100的list
     for item in pre_content:
     if item.find(' ') == -1:
     top_content.append(item)
    

    3.打印输出

    top_num = 1
    for item in top_content:
     print 'Top' + str(top_num) + ' ' + item
     top_num += 1
    
    

    三、整理代码
    我还是python新手,还没有太多的pythonic思想,也没有代码优化技巧,只能说是整理。
    其次,个人习惯,在简单的代码里面我还是喜欢少用函数,尽量不隐藏代码的逻辑。
    以下代码请参考,并欢迎提意见,希望得到大家的意见,谢谢!
    整理后的代码如下:

    # coding=utf-8
    '''
    本代码为自动抓取豆瓣top100电影代码
    @pre_url url地址前缀,在这里为http://movie.douban.com/top250?start=
    @top_urls url地址池
    @top_tag 为抓取电影名正则表达式
    '''
    
    import urllib2
    import re
    
    pre_url = 'http://movie.douban.com/top250?start='
    top_urls = []
    top_tag = re.compile(r'(.+?)')
    top_content = []
    top_num = 1
    
    # ----------确定url地址池------------
    # 因为top100,每页25部电影,故为4页,从零开始
    for num in range(4):
     top_urls.append(pre_url + str(num * 25))
    
    
    # ------------抓取top100电影名称,并打印
    输出---------- top_tag = re.compile(r'(.+?)') for url in top_urls: content = urllib2.urlopen(url).read() pre_content = re.findall(top_tag, content) # 过滤并打印输出 for item in pre_content: if item.find(' ') == -1: print 'Top' + str(top_num) + ' ' + item top_num += 1

    抓取用户头像图片

    import urllib.request
    import re
    import time
     
    #获取输入的帖子单页html
    def getHtml2(url2):
     html2=urllib.request.urlopen(url2).read().decode('utf-8')
     return html2
     
    #抽取图片相关列表,并下载图片
    def gettopic(html2):
     reg2=r'http://www.douban.com/group/topic/d+'
     topiclist=re.findall(reg2,html2)
     x=0
     #限制下载的图片数
     for topicurl in topiclist:
     x+=1
     return topicurl
     
     
    #下载图片到本地
    def download(topic_page):
     reg3=r'http://img3.douban.com/view/group_topic/large/public/.+.jpg'
     imglist=re.findall(reg3,topic_page)
     i=1
     download_img=None
     for imgurl in imglist:
    #取图片ID为文件名
     img_numlist=re.findall(r'pd{7}',imgurl)
     for img_num in img_numlist:
     
     download_img=urllib.request.urlretrieve(imgurl,'D:pythoncodegirls\%s.jpg'%img_num)
     time.sleep(1) 
     i+=1
     print(imgurl)
     return download_img
     
    #调用函数
    page_end=int(input('请输入结束时的页码:'))
    num_end=page_end*25
    num=0
    page_num=1
    while num<=num_end:
     html2=getHtml2('http://www.douban.com/group/kaopulove/discussion?start=%d'%num)
     topicurl=gettopic(html2)
     topic_page=getHtml2(topicurl)
     download_img=download(topic_page)
     num=page_num*25
     page_num+=1
     
    else:
     print('采集完成!')
    

    文档

    编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法

    编写Python爬虫抓取豆瓣电影TOP100及用户头像的方法:抓取豆瓣电影TOP100 一、分析豆瓣top页面,构建程序结构 1.首先打开网页http://movie.douban.com/top250?start,也就是top页面 然后试着点击到top100的页面,注意带top100的链接依次为 http://movie.douban.com/top25
    推荐度:
    标签: 豆瓣 100 电影
    • 热门焦点

    最新推荐

    猜你喜欢

    热门推荐

    专题
    Top