安迪Python

V1

2022/06/21阅读:12主题:默认主题

12 BeautifulSoup类的初始化

12 BeautifulSoup类的初始化

beautifulsoup4 简写为bs4。
bs4 库是 Python 的第三方库。
作用是从文档中提取数据。

bs4 是库。
BeautifulSoup 是类。

【知识回顾】
类的首字母要大写。
类的实例化语法:对象 = 类名(参数)

12.1 BeautifulSoup 类的初始化方式

1. 初始化步骤

11_beautifulsoup初始化步骤
11_beautifulsoup初始化步骤

2. 初始化BeautifulSoup 对象

# 从bs4库中导入BeautifulSoup 类 
from bs4 import BeautifulSoup

# 传入markup、features2个参数,得到一个实例化对象
# 对象 = 类名(参数)  
soup = BeautifulSoup(markup=, features=)

12.2 BeautifulSoup 的参数的含义

1. 参数markup

参数markup指被解析的 HTML字符串或文件内容。

1. 使用字符串变量

# 从bs4库中导入BeautifulSoup 类 
from bs4 import BeautifulSoup

# html_str是一个字符串变量,通常是上一步得到的HTML代码
soup = BeautifulSoup(html_str)

2. 使用open()函数打开文件

# 从bs4库中导入BeautifulSoup 类 
from bs4 import BeautifulSoup

# 使用open函数将文件打开,得到文件对象
# 文件对象也可以作为初始化参数
# index.html指HTML代码
soup = BeautifulSoup(open(index.html))

2. 参数features

参数features指解析器的类型

1. 指定解析器

# 从bs4库中导入BeautifulSoup 类 
from bs4 import BeautifulSoup

# html_str 要解析的HTML代码(数据类型为字符串)
# 解析器为'lxml',注意解析器前后有引号
# 对象 = 类名(参数)  
soup = BeautifulSoup(html_str, 'lxml')
# 从bs4库中导入BeautifulSoup 类 
from bs4 import BeautifulSoup

# html_str 要解析的HTML代码(数据类型为字符串)
# 解析器为'html.parser',注意解析器前后有引号
# 对象 = 类名(参数)  
soup = BeautifulSoup(html_str, 'html.parser')

2. 未指定解析器, BeautifulSoup选择默认的解析器来解析文档

# 从bs4库中导入BeautifulSoup 类 
from bs4 import BeautifulSoup

# html_str 要解析的HTML代码(数据类型为字符串)
# 解析器为'html.parser',注意解析器前后有引号
soup = BeautifulSoup(html_str)

12.3 总结

12_爬虫的步骤
12_爬虫的步骤

分类:

后端

标签:

Python

作者介绍

安迪Python
V1