最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 正文

selenium+phantomjs爬取微博数据

来源:动视网 责编:小OO 时间:2025-09-29 04:03:54
文档

selenium+phantomjs爬取微博数据

#_*_coding:utf-8_*_importtimeimportsys#reload(sys)#sys.setdefaultencoding('utf-8')fromweiboimportAPIClientimportjson#importwebbrowserimportioimportreimportcookielibfromscrapy.selectorimportSelectorfromscrapy.spidersimportCrawlSpider,Spiderfromscrapy
推荐度:
导读#_*_coding:utf-8_*_importtimeimportsys#reload(sys)#sys.setdefaultencoding('utf-8')fromweiboimportAPIClientimportjson#importwebbrowserimportioimportreimportcookielibfromscrapy.selectorimportSelectorfromscrapy.spidersimportCrawlSpider,Spiderfromscrapy
# _*_ coding: utf-8 _*_

import time

import sys

#reload(sys)

#sys.setdefaultencoding('utf-8')

from weibo import APIClient

import json

# import webbrowser

import io

import re

import cookielib

from scrapy.selector import Selector

from scrapy.spiders import  CrawlSpider,Spider

from scrapy.http import Request,FormRequest

#selenium+phantomJS获取微博数据

from selenium import webdriver

#print "hello"

cap = webdriver.DesiredCapabilities.PHANTOMJS

cap["phantomjs.page.settings.resourceTimeout"] = 1000

cap["phantomjs.page.settings.loadImages"] = False

cap["phantomjs.page.settings.localToRemoteUrlAccessEnabled"] = True

driver = webdriver.PhantomJS(desired_capabilities=cap)

#driver = webdriver.PhantomJS()

print u'准备登陆Weibo.cn网站...'

driver.get("http://login.sina.com.cn/sso/login.php?client=ssologin.js(v1.4.11)")

# elem_user = driver.find_element_by_xpath("//div[@class='info_list username']/div[@class='input_wrap W_input_focus']")

elem_user = driver.find_element_by_xpath("//ul[@class='mainlogin']/li/div/div/span/cite/input[2]")

elem_user.send_keys('XXXXX') #用户名

elem_pwd  = driver.find_element_by_xpath("//ul[@class='mainlogin']/li[2]/div/div/span/cite/input")

elem_pwd.send_keys('XXXXX')  #密码

elem_sub = driver.find_element_by_xpath("//li/div[@class='ml_r']/input")

elem_sub.send_keys(u'登 录')  #密码

elem_sub.click()              #点击登陆

time.sleep(5)

try:

    driver.get("http://weibo.com/u/2865101843?from=feed&loc=nickname")

    page_source = driver.page_source

    response = page_source.encode('utf-8')

    yy=u"[\一-\龥|A-Za-z0-9_]"

xx=u"nick-name=\\"[\一-\龥|A-Za-z0-9_]+\\">"

    pattern = re.compile(xx)

    match = pattern.findall(page_source)

    for the_text in match:

        print the_text

    driver.quit()

finally:

    # 退出phantomjs进程,否则会累积越来越多的进程

    driver.quit()

    print '有错误,关闭phantomjs。'"""

文档

selenium+phantomjs爬取微博数据

#_*_coding:utf-8_*_importtimeimportsys#reload(sys)#sys.setdefaultencoding('utf-8')fromweiboimportAPIClientimportjson#importwebbrowserimportioimportreimportcookielibfromscrapy.selectorimportSelectorfromscrapy.spidersimportCrawlSpider,Spiderfromscrapy
推荐度:
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top