最新文章专题视频专题问答1问答10问答100问答1000问答2000关键字专题1关键字专题50关键字专题500关键字专题1500TAG最新视频文章推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37视频文章20视频文章30视频文章40视频文章50视频文章60 视频文章70视频文章80视频文章90视频文章100视频文章120视频文章140 视频2关键字专题关键字专题tag2tag3文章专题文章专题2文章索引1文章索引2文章索引3文章索引4文章索引5123456789101112131415文章专题3
当前位置: 首页 - 科技 - 知识百科 - 正文

Python爬虫如何处理html中的延迟加载部分(delayload_url)_html/css_WEB-ITnose

来源:动视网 责编:小采 时间:2020-11-27 16:03:19
文档

Python爬虫如何处理html中的延迟加载部分(delayload_url)_html/css_WEB-ITnose

Python爬虫如何处理html中的延迟加载部分(delayload_url)_html/css_WEB-ITnose:下载链接http://s.1688.com/selloffer/industry_offer_search.htmmixWholesale=true&industryFlag=food&categoryId=1032913&from=industrySearch&n=y&filt=y#_fb_top的源码,结果只包含了页面的一部分内容;该页面共6
推荐度:
导读Python爬虫如何处理html中的延迟加载部分(delayload_url)_html/css_WEB-ITnose:下载链接http://s.1688.com/selloffer/industry_offer_search.htmmixWholesale=true&industryFlag=food&categoryId=1032913&from=industrySearch&n=y&filt=y#_fb_top的源码,结果只包含了页面的一部分内容;该页面共6

下载链接“http://s.1688.com/selloffer/industry_offer_search.htm?mixWholesale=true&industryFlag=food&categoryId=1032913&from=industrySearch&n=y&filt=y#_fb_top”的源码,结果只包含了页面的一部分内容;该页面共60个商品,但源码中只能解析出20个,且无法找到翻页链接;



应该是以上一段源码实现的延迟加载,在该页面滑轮下拉到底时,才载入新的部分;求教如何解析该页面,获取完整的页面源码,解析全部60个商品和翻页链接。


回复讨论(解决方案)

审核元素找到数据源链接直接用那个链接获取数据

额。。不知道现在回答还来不来得及!这个可以通过火狐捕捉到延迟加载的url地址,然后就可以找到规律了。我刚好也在爬1688的数据也遇到了延迟加载这个问题,然后通过火狐浏览器捕捉url,发现其实只要把sw-delayload-url这个div里面的url取出来然后在最后面加上&callback=任意字符串,然后每次改变&startIndex=这个就可以了(依次为startIndex=20,startIndex=40),这样就会返回一个json的数据
我试过你贴出来的那个url不知道为什么没数据返回,可能是商品下架了。。你可以按我说的试试
,如果你已经解决了并有更好的方法的话希望能交流一下,谢谢

文档

Python爬虫如何处理html中的延迟加载部分(delayload_url)_html/css_WEB-ITnose

Python爬虫如何处理html中的延迟加载部分(delayload_url)_html/css_WEB-ITnose:下载链接http://s.1688.com/selloffer/industry_offer_search.htmmixWholesale=true&industryFlag=food&categoryId=1032913&from=industrySearch&n=y&filt=y#_fb_top的源码,结果只包含了页面的一部分内容;该页面共6
推荐度:
标签: 加载 如何 延迟
  • 热门焦点

最新推荐

猜你喜欢

热门推荐

专题
Top