
数据星辰
V1
2023/04/27阅读:13主题:蓝莹
使用Python库抽取
一、Python库
基于Xpath和Dom树两个基础知识,可以使用python库进行针对性的信息抽取 处理XML和HTML的第三方库:
-
Lxml
-
beautifulsoup4
二、lxml
它是Python语言中处理XML和HTML的第三方库
-
从网络爬虫的角度看,我们关注lxml的文本解析功能 -
在iPython环境中,使用lxml:from lxml import etree -
底层封装C语言编写的libxml2和libxslt包 -
提供简单有效的Python API -
官方文档:https://lxml.de/
三、解析
根据目标文本的类型,lxml提供不同的函数来去解析
-
fromstring():解析字符串 -
HTML():解析HTML类型对象 -
XML():解析XML类型对象 -
parse():解析文件类型对象
四、Xpath
-
XML路径语言,是一种用来确定XML文档中某部分位置的语言 -
基于XML的树状结构,提供在数据结构树中找寻节点的能力 -
Xpath可以用来标记XML和HTML语言的某一部分
五、DOM树
-
基于DOM,会载入整个HTML文档,并解析整个DOM树 -
HTML是分层的,由标签、属性、数据组成,这些元素整体构成一棵DOM树 -
DOM树中每个节点都是一个元素,一个元素可以有自己的属性,也可以包含若干个子
六、第三方解析库
BeautifulSoup是Python语言中另一种解析XML/HTML的第三方解析库
-
处理不规范标记并生成分析树 -
提供简单的导航,搜索以及修改分析树的操作功能
作者介绍

数据星辰
V1
数据星辰存储平台的搭建、分析、研究