11 Beautiful Soup 解析库的简介及安装

我们要完成一个爬虫任务需要以下3个步骤：
步骤1：获取网页；获取网页即发起网页请求，获取网页源代码。
步骤2：解析网页；解析网成首先要完成解析数据，然后再提取数据。
步骤3：存储数据。

Python 要处理csv文件，需要先生成一个 Python 对象，即 csv 对象。
Python 要处理获取到的 HTML 网页，也需要先生成一个 Python 对象。
解析数据的作用就是要将 HTML文档转化为 Python 程序可处理的 Python 对象。

解析数据需要使用解析库和解析器才能实现。

Beautiful Soup 和Xpath 都是用于解析数据的解析库。

11.1 Beautiful Soup 解析库简介

Beautiful Soup 提供一些简单的方法和Python式函数，用于浏览、搜索和和修改解析树，它是一个工具箱，通过解析文档为用户提供需要抓取的数据。

Beautiful Soup 和Xpath 都可以从文档中提取数据。
但Beautiful Soup 还可以修改文档中的数据，这是Xpath 不具备的功能。

Beautiful Soup 在使用时需要给它安装解析器。
Beautiful Soup 支持多种解析器。
包括Python标准库中的HTML解析器，也支持第三方解析器。

Beautiful Soup 自动将输入文档转换成Unicode类型，输出文档转换为uft-8编码。
如果文档中没指定编码，只需我们指定编码即可。

目前Beautiful Soup 的最新版本是4.x，之前的版本已经停止开发了。
所以今后的解析都用beautifulsoup4 。

beautifulsoup4 简写为bs4。 bs4 库是Python的第三方库，使用前必须先安装后导入。
bs4 的 4 表示版本。

pip3 install beautifulsoup4

Beautiful Soup 的LXML HTML解析器是依赖于lxml库的，使用之前需要先安装lxml库。

安装命令

pips install lxml

安装命令

pips install html5lib