12 BeautifulSoup类的初始化

12.1 BeautifulSoup 类的初始化方式
- 1. 初始化步骤
- 2. 初始化BeautifulSoup 对象
12.2 BeautifulSoup 的参数的含义
- 1. 参数markup
- 2. 参数features
12.3 总结

beautifulsoup4 简写为bs4。
bs4 库是 Python 的第三方库。
作用是从文档中提取数据。

bs4 是库。
BeautifulSoup 是类。

【知识回顾】
类的首字母要大写。
类的实例化语法：对象 = 类名(参数)

12.1 BeautifulSoup 类的初始化方式

1. 初始化步骤

2. 初始化BeautifulSoup 对象

# 从bs4库中导入BeautifulSoup 类 
from bs4 import BeautifulSoup

# 传入markup、features2个参数，得到一个实例化对象
# 对象 = 类名(参数)  
soup = BeautifulSoup(markup=, features=)

12.2 BeautifulSoup 的参数的含义

1. 参数markup

参数markup指被解析的 HTML字符串或文件内容。

1. 使用字符串变量

# 从bs4库中导入BeautifulSoup 类 
from bs4 import BeautifulSoup

# html_str是一个字符串变量，通常是上一步得到的HTML代码
soup = BeautifulSoup(html_str)

2. 使用open()函数打开文件

# 从bs4库中导入BeautifulSoup 类 
from bs4 import BeautifulSoup

# 使用open函数将文件打开，得到文件对象
# 文件对象也可以作为初始化参数
# index.html指HTML代码
soup = BeautifulSoup(open(index.html))

2. 参数features

参数features指解析器的类型

1. 指定解析器

# 从bs4库中导入BeautifulSoup 类 
from bs4 import BeautifulSoup

# html_str 要解析的HTML代码(数据类型为字符串)
# 解析器为'lxml'，注意解析器前后有引号
# 对象 = 类名(参数)  
soup = BeautifulSoup(html_str, 'lxml')

# 从bs4库中导入BeautifulSoup 类 
from bs4 import BeautifulSoup

# html_str 要解析的HTML代码(数据类型为字符串)
# 解析器为'html.parser'，注意解析器前后有引号
# 对象 = 类名(参数)  
soup = BeautifulSoup(html_str, 'html.parser')

2. 未指定解析器， BeautifulSoup选择默认的解析器来解析文档

# 从bs4库中导入BeautifulSoup 类 
from bs4 import BeautifulSoup

# html_str 要解析的HTML代码(数据类型为字符串)
# 解析器为'html.parser'，注意解析器前后有引号
soup = BeautifulSoup(html_str)

12.3 总结