数据星辰

V1

2023/04/27阅读:13主题:蓝莹

使用Python库抽取

一、Python库

基于Xpath和Dom树两个基础知识,可以使用python库进行针对性的信息抽取 处理XML和HTML的第三方库:

  1. Lxml
  2. beautifulsoup4

二、lxml

它是Python语言中处理XML和HTML的第三方库

  1. 从网络爬虫的角度看,我们关注lxml的文本解析功能
  2. 在iPython环境中,使用lxml:from lxml import etree
  3. 底层封装C语言编写的libxml2和libxslt包
  4. 提供简单有效的Python API
  5. 官方文档:https://lxml.de/

三、解析

根据目标文本的类型,lxml提供不同的函数来去解析

  1. fromstring():解析字符串
  2. HTML():解析HTML类型对象
  3. XML():解析XML类型对象
  4. parse():解析文件类型对象

四、Xpath

  1. XML路径语言,是一种用来确定XML文档中某部分位置的语言
  2. 基于XML的树状结构,提供在数据结构树中找寻节点的能力
  3. Xpath可以用来标记XML和HTML语言的某一部分

五、DOM树

  1. 基于DOM,会载入整个HTML文档,并解析整个DOM树
  2. HTML是分层的,由标签、属性、数据组成,这些元素整体构成一棵DOM树
  3. DOM树中每个节点都是一个元素,一个元素可以有自己的属性,也可以包含若干个子

六、第三方解析库

BeautifulSoup是Python语言中另一种解析XML/HTML的第三方解析库

  1. 处理不规范标记并生成分析树
  2. 提供简单的导航,搜索以及修改分析树的操作功能

分类:

后端

标签:

数据结构与算法

作者介绍

数据星辰
V1

数据星辰存储平台的搭建、分析、研究