XPath即为XML路径语言(XML Path Language);

在XML文档中查找信息的语言,同样适用于HTML文档的检索;

lxml库的使用

概念

在XML文档中查找信息的语言,同样适用于HTML文档的检索

XPath辅助工具

  1. Chrome安装插件方式

    1、打开浏览器 - 设置 - 更多工具 - 扩展程序

    2、右上角 :开发者模式

    3、从网上下载的插件 拖拽到 浏览器页面

  2. 网页解析相关插件

    1、Chrome浏览器 :XPath Helper

    2、Firefox浏览器:XPath Checker

    3、XPath表达式编辑工具 :XML Quire

  3. 打开和关闭XPath辅助工具

    打开/关闭 :

    ctrl + shift + x
    

XPath匹配规则

演示文档

匹配演示

  1. 查找bookstore下所有节点

    /bookstore
    
  2. 查找所有的book节点

    //book
    
  3. 查找所有book节点下的title节点

    //book/title
    
  4. 查找//book/title节点中lang属性为 "en" 的节点

    //book/title[@lang="en"]
    
  5. 获取bookstore节点下的第2个book节点下的title节点的文本内容

    /bookstore/book[2]/title/text()
    

选取节点

//  :从整个HTML文档中查找节点
//price   //book//price