最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 科技 - 知识百科 - 正文

Python使用urllib2模块抓取HTML页面资源的实例分享

来源:动视网 责编:小采 时间:2020-11-27 14:35:50
文档

Python使用urllib2模块抓取HTML页面资源的实例分享

Python使用urllib2模块抓取HTML页面资源的实例分享:先把要抓取的网络地址列在单独的list文件中 http://www.gxlcms.com/article/83440.html http://www.gxlcms.com/article/83437.html http://www.gxlcms.com/article/83430.html http://www.gxlcms.com/
推荐度:
导读Python使用urllib2模块抓取HTML页面资源的实例分享:先把要抓取的网络地址列在单独的list文件中 http://www.gxlcms.com/article/83440.html http://www.gxlcms.com/article/83437.html http://www.gxlcms.com/article/83430.html http://www.gxlcms.com/


先把要抓取的网络地址列在单独的list文件中

http://www.gxlcms.com/article/83440.html
http://www.gxlcms.com/article/83437.html
http://www.gxlcms.com/article/83430.html
http://www.gxlcms.com/article/83449.html

然后我们来看程序操作,代码如下:

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
 os.makedirs(dpath)
 try:
 getfile = urllib2.urlopen(fileurl) 
 data = getfile.read()
 f = open(fpath, 'w')
 f.write(data)
 f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
 URI = line.strip()
 if '?' and '%' in URI:
 continue
 elif URI.count('/') == 2:
 continue
 elif URI.count('/') > 2:
 #print URI,URI.count('/')
 try:
 dirpath = URI.rpartition('/')[0].split('//')[1]
 #filepath = URI.split('//')[1].split('/')[1]
 filepath = URI.split('//')[1]
 if filepath:
 print URI,filepath,dirpath
 Cdown_data(URI, filepath, dirpath)
 except:
 print URI,'error'

原文网址为:http://www.diyoms.com/python/1806.html

文档

Python使用urllib2模块抓取HTML页面资源的实例分享

Python使用urllib2模块抓取HTML页面资源的实例分享:先把要抓取的网络地址列在单独的list文件中 http://www.gxlcms.com/article/83440.html http://www.gxlcms.com/article/83437.html http://www.gxlcms.com/article/83430.html http://www.gxlcms.com/
推荐度:
标签: html python urllib
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top