最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 科技 - 知识百科 - 正文

利用PyQuery获取HTML指定标签内容_html/css_WEB-ITnose

来源:懂视网 责编:小采 时间:2020-11-27 16:33:45
文档

利用PyQuery获取HTML指定标签内容_html/css_WEB-ITnose

利用PyQuery获取HTML指定标签内容_html/css_WEB-ITnose:安装 sudo pip install pyquery 例子 from pyquery import PyQueryimport urllib2page = urllib2.urlopen(http://www.lzu.edu.cn)text = unicode(page.read(), utf-8)doc = PyQuery(text)for
推荐度:
导读利用PyQuery获取HTML指定标签内容_html/css_WEB-ITnose:安装 sudo pip install pyquery 例子 from pyquery import PyQueryimport urllib2page = urllib2.urlopen(http://www.lzu.edu.cn)text = unicode(page.read(), utf-8)doc = PyQuery(text)for

安装

sudo pip install pyquery

例子

from pyquery import PyQueryimport urllib2page = urllib2.urlopen("http://www.lzu.edu.cn")text = unicode(page.read(), "utf-8")doc = PyQuery(text)for event in doc('.r li'): event = PyQuery(event) #loc = event.find('.h').text() time = event.text().encode('utf-8') #name = event.find('title').text() #print 'name: %s' % name print '名字 : %s' % time #print 'location : %s' % loc print '----------------------'

注意event里是unicode,在内存中运算的一定是固定2字节的unicode,存储要转为变字节的utf-8。

当然还有别的模块也可以用,如

#!/usr/bin/env python#-*- coding: utf8 -*-from HTMLParser import HTMLParserfrom htmlentitydefs import name2codepointimport urllib2class MyHTMLParser(HTMLParser): def __init__(self): HTMLParser.__init__(self) self._flag = '' def handle_starttag(self, tag, attrs): if tag == 'h3' and attrs.__contains__(('class','event-title')): self._flag = 'event-title' if tag == 'time': self._flag = 'time' if tag == 'span' and attrs.__contains__(('class','event-location')): self._flag = 'event-location' def handle_data(self, data): if self._flag == 'event-title': print '会议名称: %s' %data self._flag = '' #if self._flag == 'time': # print '会议时间: %s' %data if self._flag == 'event-location': print '会议地点: %s' %data print '-------------------' self._flag = ''page = urllib2.urlopen('https://www.python.org/events/python-events/').read()parser = MyHTMLParser()parser.feed(page)

References

[1].http://www.douban.com/note/208670234/

[2].http://blog.csdn.net/mindmb/article/details/7898528

[3].http://pythonhosted.org/pyquery/api.html

文档

利用PyQuery获取HTML指定标签内容_html/css_WEB-ITnose

利用PyQuery获取HTML指定标签内容_html/css_WEB-ITnose:安装 sudo pip install pyquery 例子 from pyquery import PyQueryimport urllib2page = urllib2.urlopen(http://www.lzu.edu.cn)text = unicode(page.read(), utf-8)doc = PyQuery(text)for
推荐度:
标签: 内容 获取 元素
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top