最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 科技 - 知识百科 - 正文

python使用urllib模块和pyquery实现阿里巴巴排名查询

来源:动视网 责编:小采 时间:2020-11-27 14:29:59
文档

python使用urllib模块和pyquery实现阿里巴巴排名查询

python使用urllib模块和pyquery实现阿里巴巴排名查询:urllib基础模块的应用,通过该类获取到url中的html文档信息,内部可以重写代理的获取方法 代码如下:class ProxyScrapy(object): def __init__(self): self.proxy_robot = ProxyRobot() self.current_proxy = None
推荐度:
导读python使用urllib模块和pyquery实现阿里巴巴排名查询:urllib基础模块的应用,通过该类获取到url中的html文档信息,内部可以重写代理的获取方法 代码如下:class ProxyScrapy(object): def __init__(self): self.proxy_robot = ProxyRobot() self.current_proxy = None


urllib基础模块的应用,通过该类获取到url中的html文档信息,内部可以重写代理的获取方法

代码如下:


class ProxyScrapy(object):
def __init__(self):
self.proxy_robot = ProxyRobot()
self.current_proxy = None
self.cookie = cookielib.CookieJar()

def __builder_proxy_cookie_opener(self):
cookie_handler = urllib2.HTTPCookieProcessor(self.cookie)
handlers = [cookie_handler]

if PROXY_ENABLE:
self.current_proxy = ip_port = self.proxy_robot.get_random_proxy()
proxy_handler = urllib2.ProxyHandler({'http': ip_port[7:]})
handlers.append(proxy_handler)

opener = urllib2.build_opener(*handlers)
urllib2.install_opener(opener)
return opener

def get_html_body(self,url):
opener = self.__builder_proxy_cookie_opener()

request=urllib2.Request(url)
#request.add_header("Accept-Encoding", "gzip,deflate,sdch")
#request.add_header("Accept", "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8")
#request.add_header("Cache-Control", "no-cache")
#request.add_header("Connection", "keep-alive")

try:
response = opener.open(request,timeout=2)

http_code = response.getcode()
if http_code == 200:
if PROXY_ENABLE:
self.proxy_robot.handle_success_proxy(self.current_proxy)
html = response.read()
return html
else:
if PROXY_ENABLE:
self.proxy_robot.handle_double_proxy(self.current_proxy)
return self.get_html_body(url)
except Exception as inst:
print inst,self.current_proxy
self.proxy_robot.handle_double_proxy(self.current_proxy)
return self.get_html_body(url)

文档

python使用urllib模块和pyquery实现阿里巴巴排名查询

python使用urllib模块和pyquery实现阿里巴巴排名查询:urllib基础模块的应用,通过该类获取到url中的html文档信息,内部可以重写代理的获取方法 代码如下:class ProxyScrapy(object): def __init__(self): self.proxy_robot = ProxyRobot() self.current_proxy = None
推荐度:
标签: 模块 排名 python
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top