博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python 网页爬虫
阅读量:5093 次
发布时间:2019-06-13

本文共 482 字,大约阅读时间需要 1 分钟。

解决问题:获取网页上的内容。特别是加载主框架后,再用AJAX获取数据生成内容的网页。

PyQuery:可以像jQuery的py实现。你给他一个PyQuery一个HTML,他给你一个类似jQuery的操作.只能获取普通网页。AJAX的网页就无能为力。

Ghost.py:一个封装Webkit(浏览器核心)的类库。就是模拟浏览器访问网页。

安装类库

pip install PyQuery

pip install PySide

pip install Ghost.py

from ghost import Ghostfrom pyquery import PyQuery as pq

 

g=Ghost()session=g.start()session.open('http://www.163.com' ,wait=None)session.wait_for_page_loaded()
doc=pq(session.content)

这样 doc 就可以当作$用了

转载于:https://www.cnblogs.com/bflyman/p/4845459.html

你可能感兴趣的文章
Eclipse 安装SVN插件
查看>>
阿里云服务器CentOS6.9安装Mysql
查看>>
剑指offer系列6:数值的整数次方
查看>>
js 过滤敏感词
查看>>
poj2752 Seek the Name, Seek the Fame
查看>>
软件开发和软件测试,我该如何选择?(蜗牛学院)
查看>>
基本封装方法
查看>>
bcb ole拖拽功能的实现
查看>>
生活大爆炸之何为光速
查看>>
bzoj 2456: mode【瞎搞】
查看>>
[Typescript] Specify Exact Values with TypeScript’s Literal Types
查看>>
[GraphQL] Reuse Query Fields with GraphQL Fragments
查看>>
Illustrated C#学习笔记(一)
查看>>
理解oracle中连接和会话
查看>>
两种最常用的Sticky footer布局方式
查看>>
Scrapy实战篇(三)之爬取豆瓣电影短评
查看>>
HDU 5510 Bazinga KMP
查看>>
[13年迁移]Firefox下margin-top问题
查看>>
Zookeeper常用命令 (转)
查看>>
Enterprise Library - Data Access Application Block 6.0.1304
查看>>