进一步探究Python的装饰器的运用

来源：动视网责编：小采时间：2020-11-27 14:41:38

进一步探究Python的装饰器的运用

进一步探究Python的装饰器的运用:装饰器在 python 中用的相当广泛，如果你用过 python 的一些 web 框架，那么一定对其中的 route() 装饰器不陌生，今天咱们再看一个具体的案例。咱们来模拟一个场景，需要你去抓去一个页面，然后这个页面有好多url也要分别去抓取，而进入这些子url后

推荐度：

点击下载本文 文档为doc格式

导读进一步探究Python的装饰器的运用:装饰器在 python 中用的相当广泛，如果你用过 python 的一些 web 框架，那么一定对其中的 route() 装饰器不陌生，今天咱们再看一个具体的案例。咱们来模拟一个场景，需要你去抓去一个页面，然后这个页面有好多url也要分别去抓取，而进入这些子url后

装饰器在 python 中用的相当广泛，如果你用过 python 的一些 web 框架，那么一定对其中的 “ route() 装饰器” 不陌生，今天咱们再看一个具体的案例。

咱们来模拟一个场景，需要你去抓去一个页面，然后这个页面有好多url也要分别去抓取，而进入这些子url后，还有数据要抓取。简单点，我们就按照三层来看，那我们的代码就是如下：

def func_top(url):
 data_dict= {}
 
 #在页面上获取到子url
 sub_urls = xxxx
 
 data_list = []
 for it in sub_urls:
 data_list.append(func_sub(it))
 
 data_dict['data'] = data_list
 
 return data_dict
 
def func_sub(url):
 data_dict= {}
 
 #在页面上获取到子url
 bottom_urls = xxxx
 
 data_list = []
 for it in bottom_urls:
 data_list.append(func_bottom(it))
 
 data_dict['data'] = data_list
 
 return data_dict
 
def func_bottom(url):
 #获取数据
 data = xxxx
 return data

func_top是上层页面的处理函数，func_sub是子页面的处理函数，func_bottom是最深层页面的处理函数，func_top会在取到子页面url后遍历调用func_sub,func_sub也是同样。
如果正常情况下，这样确实已经满足需求了，但是偏偏这个你要抓取的网站可能极不稳定，经常链接不上，导致数据拿不到。
于是这个时候你有两个选择:
1.遇到错误就停止，之后重新从断掉的位置开始重新跑
2.遇到错误继续，但是要在之后重新跑一遍，这个时候已经有的数据不希望再去网站拉一次，而只去拉没有取到的数据
对第一种方案基本无法实现，因为如果别人网站的url调整顺序，那么你记录的位置就无效了。那么只有第二种方案，说白了，就是要把已经拿到的数据cache下来，等需要的时候，直接从cache里面取。
OK，目标已经有了，怎么实现呢？
如果是在C++中的，这是个很麻烦的事情，而且写出来的代码必定丑陋无比，然而庆幸的是，我们用的是python，而python对函数有装饰器。
所以实现方案也就有了:
定义一个装饰器，如果之前取到数据，就直接取cache的数据；如果之前没有取到，那么就从网站拉取，并且存入cache中.
代码如下:

import os
import hashlib
 
def deco_args_recent_cache(category='dumps'):
 '''
 装饰器，返回最新cache的数据
 '''
 def deco_recent_cache(func):
 def func_wrapper(*args, **kargs):
 sig = _mk_cache_sig(*args, **kargs)
 data = _get_recent_cache(category, func.__name__, sig)
 if data is not None:
 return data
 
 data = func(*args, **kargs)
 if data is not None:
 _set_recent_cache(category, func.__name__, sig, data)
 return data
 
 return func_wrapper
 
 return deco_recent_cache
 
def _mk_cache_sig(*args, **kargs):
 '''
 通过传入参数，生成唯一标识
 '''
 src_data = repr(args) + repr(kargs)
 m = hashlib.md5(src_data)
 sig = m.hexdigest()
 return sig
 
def _get_recent_cache(category, func_name, sig):
 full_file_path = '%s/%s/%s' % (category, func_name, sig)
 if os.path.isfile(full_file_path):
 return eval(file(full_file_path,'r').read())
 else:
 return None
 
def _set_recent_cache(category, func_name, sig, data):
 full_dir_path = '%s/%s' % (category, func_name)
 if not os.path.isdir(full_dir_path):
 os.makedirs(full_dir_path)
 
 full_file_path = '%s/%s/%s' % (category, func_name, sig)
 f = file(full_file_path, 'w+')
 f.write(repr(data))
 f.close()

然后，我们只需要在每个func_top,func_sub,func_bottom都加上deco_args_recent_cache这个装饰器即可~~
搞定！这样做最大的好处在于，因为top,sub,bottom，每一层都会dump数据，所以比如某个sub层数据dump之后，是根本不会走到他所对应的bottom层的，减少了大量的开销！
OK，就这样~ 人生苦短，我用python！

注：

python3 已经原生支持了这种功能！链接如下:

http://docs.python.org/py3k/whatsnew/3.2.html#functools

进一步探究Python的装饰器的运用

推荐度：

点击下载本文 文档为doc格式

标签：使用 python python的

热门焦点

进一步探究Python的装饰器的运用

进一步探究Python的装饰器的运用

进一步探究Python的装饰器的运用

最新推荐

猜你喜欢

热门推荐