《崔庆才Python3网络爬虫开发实战教程》学习笔记（2）：常用库函数的安装与配置_向东的笔记本的博客

link之家

链接快照平台

输入网页链接，自动生成快照
标签化管理网页链接

1.urllib与re

urllib库提供了一系列可供用户操控URL的功能。re则是使用正则表达式而必须安装的库。这两个库是python自带的，无需额外安装。直接import urllib,re使用即可。

2.requests

这个库是做请求时常用的一个库。安装方式为：pip install requests

3.selenium

这是一个驱动浏览器的库，主要是用来做自动化测试。我们在做爬虫的时候，会遇到一些JS渲染的网页，遇到这种网页的时候仅仅用requests库是无法获取真实的网页内容。这时我们就需要用selenium库将网页的JS内容渲染出来，再进行抓取。

利用它我们还可以用带来操控浏览器，完成一些我们用鼠标和键盘才能完成的点击，输入等操作。安装方式为：pip install selenium。

4.phantomjs

这个库与selenium有着相同的功能，只不过phantomjs没有界面，可以说是一个无界面浏览器。它会在后台静默地运行，看不到任何输出。安装方式比较特殊，不是用pip工具，而是去官网下载程序包。下载地址是： http://phantomjs.org/download.html

下载完成并解压之后，将文件夹放入python的安装目录，然后将bin目录下的phantomjs.exe的路径放入Path环境变量即可。

5.lxml

这个库提供了Xpath的解析方式，xpath是一种非常高效的网页解析方式。安装方式：pip install lxml。

6.beautifulsoup

这个也是一个网页解析库，使用起来也是非常的方便，同时它是依赖于lxml的。记得使用beautifulsoup之前安装好lxml库。安装方式：pip install beautifulsoup4记得在后面加上“4”！

7.pyquery

这依然是一个网页解析库，它的语法和jquery是完全一致的，如果你有web开发经验并且使用过jquery的化，用pyquery来解析网页会非常上手！安装方式：pip install pyquery

8.pymysql

这是一个存储库，可以用来操作MySQL数据库，用来数据存储。安装方式：pip install pymysql

9.pymongo

这是也是一个存储库，可以用来操作MongoDB数据库，用来数据存储。安装方式：pip install pymongo

10.redis

这是也是一个存储库，可以用来操作redis数据库，用来数据存储。这个数据库用于分布式爬虫的使用。安装方式：pip install redis

11.flask

这是一个web库，做代理的时候会用到这个库，当我们设置一个web服务器的时候，用它来设置一些代理的获取和存储之类的接口。安装方式：pip install flask。

12.jango

这是一个web服务器框架，它提供了一个完整的后台管理和一些模板，接口，路由之类的功能。我们可以用jango来做一些网站。当我们做分布式爬虫维护的时候，会用到jango的库。做一个管理系统，管理分布式爬虫的主机信息。安装方式：pip install jango

13.jupyter

这是一个记事本，功能比较强大，运行在网页端，可以在进行代码的编写和运行。也支持markdown的编辑模式。安装方式：pip install jupyter。

安装完成之后，打开cmd窗口（无需进入python），输入jupyter notebook即可使用这个笔记本。

本篇博文是自己在学习崔庆才的《Python3网络爬虫开发实战教程》的学习笔记系列，如果你也要这套视频教程的话，加我WX吧：reborn0502，然后我私信给你百度云链接，公然放出来不太好~或者关注我公众号【程序员向东】，此公众号专注分享Python、爬虫学习资料和干货，关注后回复【PYTHON】，无套路免费送你一个学习大礼包，包括爬虫视频和电子书~-------------------...

本书从 Python 的安装开始，详细讲解了 Python 从简单程序延伸到 Python 网络爬虫的全过程。本书从实战出发，根据不同的需求选取不同的爬虫，有针对性地讲解了几种 Python 网络爬虫。本书共8章，涵盖的内容有 Python 语言的基本语法、 Python 常用 IDE的使用、 Python 第三方模块的导入使用、 Python 爬虫常用模块、Scrapy 爬虫、Beautiful Soup 爬虫、Mechanize模拟浏览器和Selenium模拟浏览器。本书所有源代码已上传网盘供读者下载。本书内容丰富，实例典型，实用性强。适合 Python 网络爬虫初学者、数据分析与挖掘技术初学者，以及高校及培训学校相关专业的师生阅读。

在window、linux、Mac上安装 Python 3的相关链接。这里会介绍 Windows 、 Linux 和Mac 三大平台下的安装过程。相关链接如下。口官方网站： http :// python .org 口下载地址： https ://www. python . org/downloads 口第三方库： h...

python 3 网络爬虫开发实战 pdf 崔庆才 百度网盘分享介绍了如何利用 Python 3 开发网络爬虫，环境配置和基础知识，然后讨论了urllib、requests、正则表达式、Beautiful Soup、XPath、pyquery、数据存储、Ajax数据爬取等内容，接着通过多个案例介绍了不同场景下如何实现数据爬取，最后介绍了pyspider框架、Scrapy框架和分布式爬虫链接：https://pan.baidu.com/s/1i8JS3FUgD–G8tbZOBsKKQ 提取码：zrv9

python 3 网络爬虫开发实战 1. 开发环境配置 2. 爬虫基础3. 基本库的使用3.1使用urllib3.1.1 发送请求1. urlopen()2. Request3. 高级用法 1. 开发环境配置 2. 爬虫基础 3. 基本库的使用 3.1使用urllib request ：它是最基本的HTTP 请求模块，可以用来模拟发送请求。就像在浏览器里输入网址，然后回车一样，只需要给库方法传入URL 以及额外的参数，就可以模拟实现这个过程了。 error ：异常处理模块，如果出现请求错误，我们可以捕获这些

为什么 Python 爬虫这么受欢迎呢？一方面，互联网可以获取的数据越来越多，另一方面，像 Python 这样的编程语言提供越来越多的优秀工具，让爬虫变得简单、容易上手。利用爬虫我们可以获取大量的价值数据，比如：知乎：爬取优质答案，为你筛选出各话题下最优质的内容。淘宝：抓取商品、评论及销量数据，对各种商品及用户的消费场景进行分析。安居客：抓取房产买卖及租售信息，分析房价变化趋势、做不同区域的房价分析。爬虫是入门

作为一个 AI，我可以回答这个问题。 Python 常用的库函数有很多，其中包括： 1. NumPy：用于数值计算和科学计算的库，提供了高效的数组操作和数学函数。 2. Pandas：用于数据处理和分析的库，提供了数据结构和数据操作函数。 3. Matplotlib：用于绘制图表和可视化数据的库，提供了各种绘图函数和样式。 4. Scikit-learn：用于机器学习和数据挖掘的库，提供了各种算法和工具。 5. TensorFlow：用于深度学习和人工智能的库，提供了各种神经网络和模型。这些库函数都有详细的文档和使用说明，可以在官方网站上查看。

python错误： TypeError: the JSON object must be str, bytes or bytearray, not 'dict'解决办法ヽ♂ㄝ笹緗垨: Python错误：AttributeError: 'generator' object has no attribute 'next'解决办法 Cyber Striver: Good！ Python错误：TypeError: 'int' object is not callable解决办法月饼kelly:

太棒了！谢谢作者！刚编完发现有问题哈哈哈~

Python错误：ImportError: cannot import name get_column_letter 解决办法 lunabook: 看来我在经历你曾经经历过的每一次。

谢谢分享。【已解决】java.sql.SQLIntegrityConstraintViolationException: Duplicate entry ‘xxx‘ for key ‘xxx‘ Springboot怎样进行参数校验？@Validation注解怎么用？分组校验如何实现？