一个灵活又方便的网页解析库,处理高效,支持多种解析器。

利用它就不用编写正则表达式也能方便的实现网页信息的抓取

概念

HTML或XML的解析器,依赖于lxml

支持解析库

  1. lxml

    速度快,文档容错能力强(不规范会自动补全);用的比较多

  2. html.parser

    python自带的解析库;速度一般,文档容错能力一般

  3. xml

    速度快,文档容错能力强

优缺点

  1. 优点:简单
  2. 缺点:性能差

解析速度对比

正则 > xpath > beautifulsoup4

安装

python -m pip install beautifulsoup4

conda install beautifulsoup4