用selenium+pyquery爬取javascript生成的页面内容

作者在 2015-03-08 20:36:03 发布以下内容
#!/usr/bin/env python
# -*- coding: UTF-8 -*-
from pyquery import PyQuery as pq
from selenium import webdriver

browser = webdriver.Firefox()
browser.get('http://www.baidu.com/')

html = browser.find_element_by_xpath("//*").get_attribute("outerHTML")  # 不要用 browser.page_source,那样得到的页面源码不标准
browser.quit()

html = pq(html)
html.find("script").remove()    # 清理 <script>...</script>
html.find("style").remove()     # 清理 <style>...</style>

print html.outer_html()

Python | 阅读 8991 次
文章评论,共0条
游客请输入验证码
浏览2882744次
文章归档
最新评论
  • 时光拾荒者:CtrlCV还是强的😝
  • 硬识岩丝:解决了,太感谢了~
  • xiwang12:路过
  • 里苦不功:不校验mysql版本是否与当前django框架是否兼容