安
安迪Python
V1
2022/06/21阅读:12主题:默认主题
12 BeautifulSoup类的初始化
12 BeautifulSoup类的初始化
beautifulsoup4 简写为bs4。
bs4 库是 Python 的第三方库。
作用是从文档中提取数据。
bs4 是库。
BeautifulSoup 是类。
【知识回顾】
类的首字母要大写。
类的实例化语法:对象 = 类名(参数)
12.1 BeautifulSoup 类的初始化方式
1. 初始化步骤

2. 初始化BeautifulSoup 对象
# 从bs4库中导入BeautifulSoup 类
from bs4 import BeautifulSoup
# 传入markup、features2个参数,得到一个实例化对象
# 对象 = 类名(参数)
soup = BeautifulSoup(markup=, features=)
12.2 BeautifulSoup 的参数的含义
1. 参数markup
参数markup指被解析的 HTML字符串或文件内容。
1. 使用字符串变量
# 从bs4库中导入BeautifulSoup 类
from bs4 import BeautifulSoup
# html_str是一个字符串变量,通常是上一步得到的HTML代码
soup = BeautifulSoup(html_str)
2. 使用open()函数打开文件
# 从bs4库中导入BeautifulSoup 类
from bs4 import BeautifulSoup
# 使用open函数将文件打开,得到文件对象
# 文件对象也可以作为初始化参数
# index.html指HTML代码
soup = BeautifulSoup(open(index.html))
2. 参数features
参数features指解析器的类型
1. 指定解析器
# 从bs4库中导入BeautifulSoup 类
from bs4 import BeautifulSoup
# html_str 要解析的HTML代码(数据类型为字符串)
# 解析器为'lxml',注意解析器前后有引号
# 对象 = 类名(参数)
soup = BeautifulSoup(html_str, 'lxml')
# 从bs4库中导入BeautifulSoup 类
from bs4 import BeautifulSoup
# html_str 要解析的HTML代码(数据类型为字符串)
# 解析器为'html.parser',注意解析器前后有引号
# 对象 = 类名(参数)
soup = BeautifulSoup(html_str, 'html.parser')
2. 未指定解析器, BeautifulSoup选择默认的解析器来解析文档
# 从bs4库中导入BeautifulSoup 类
from bs4 import BeautifulSoup
# html_str 要解析的HTML代码(数据类型为字符串)
# 解析器为'html.parser',注意解析器前后有引号
soup = BeautifulSoup(html_str)
12.3 总结

作者介绍
安
安迪Python
V1