一个灵活又方便的网页解析库,处理高效,支持多种解析器。
利用它就不用编写正则表达式也能方便的实现网页信息的抓取
HTML或XML的解析器,依赖于lxml
lxml
速度快,文档容错能力强(不规范会自动补全);用的比较多
html.parser
python自带的解析库;速度一般,文档容错能力一般
xml
速度快,文档容错能力强
解析速度对比
正则 > xpath > beautifulsoup4
python -m pip install beautifulsoup4
或
conda install beautifulsoup4