菜单

通过标签和属性写XPath

标签：网页定位 ,网页查找定位 ,xpath

认识xpath的结构？

先自己自动生成几个XPath，看一下XPath结构有什么规律。几个示例XPath：

.//*[@id='subject_list']/ul/li[1]

.//*[@id='subject_list']/ul/li[1]/div[2]/p

html/body//li[@class='next']/a[1]

我们发现，XPath都具有相似的结构，都由3部分组成。

是的，XPath通过HTML标签和属性查找数据：

标签：html body ul li div p a ......

连接标签的符号：/ //

属性和属性值：[@id='subject_list'] [@class='next']

弄清楚HTML标签、属性及其组合规律，是学会写一条正确XPath的关键。

下面介绍HTML文档中最常见的标签、属性。

1、标签

① 常见标签

<a> </a> 定义超链接，用于从一张页面链接到另一张页面

<p> </p> 段落标记标签

<div> </div> 可定义文档中的区域或节、可以把文档分割为不同的部分，是一个块级元素

<li> </li> 创建列表内容项

<img> </img> 向网页中嵌入一幅图像，从网页中链接图像

<table> </table> 创建一个表格

<tr> </tr> 表格中的每一行

<td> </td> 表格中的标准单元格

② 标签之间的层级

HTML文档是树状结构，标签具有层级，标签之间具有父、子、兄弟的关系。

父（Parent）：每个标签都有一个父标签。如下图，ul标签是黄框中所有li标签的父标签。

子（Children）：一个标签可有零个、一个或多个子标签。如下图，li标签是ul标签的子标签。

兄弟（Sibling）：同级标签，拥有相同的父标签。如下图，红框中的li标签是兄弟（同级）标签。

③ 连接标签

在XPath中，HTML标签用 单斜杠 / 或 双斜杠 // 连接，两者有何不同？

示例网址：https://book.douban.com/tag/%E5%B0%8F%E8%AF%B4 ，我想要定位到第一本书《解忧杂货店》的标题。

/：用绝对路径定位

从根标签开始，一层一层往下定位，直到标题所在的位置，不可跨层级。

实例写法为：html/body/div[3]/div/div/div/div/ul/li[1]/div[2]/h2/a 。

可以看到，此种定位方法很死板，一旦中间的层级发生改变，整条定位XPath就失效了。比如，另一个相似网页，在ul前多了一个div，那以上XPath html/body/div[3]/div/div/div/div/ul/li[1]/div[2]/h2/a 就会失效，找不到【标题】这个目标数据。

//：用相对路径定位（推荐）

直接找到标题所在层级的标签和属性定位，可以跨层级。

实例写法为：//a[@title='解忧杂货店']

这种定位方法就比较灵活，因为它是直接用目标标签的属性定位的，属性一般不发生改变。还是上面那个例子，另一个相似网页，在a标签前多了一个div标签，//a[@title='解忧杂货店'] 这条XPath依旧有效，多了一个div标签并不对其造成影响。只要源码中存在 title 为解忧杂货店的 a 标签，就能直接定位到。

注意：因为这里是跨层级定位到a标签，所以需要用 //。如果将 // 换成 / ，XPath 写作 /a[@title='解忧杂货店']，则定位不到标题。

/ 和 // 是可以组合使用的，本质上是需要把握好标签之间的层级关系，请根据网页情况灵活使用。

2、属性

① 常见属性

class 规定元素的类名，大多数时候用于指定样式表中的类

id 唯一标识一个元素的属性，在html里面必须是唯一的

href 指定超链接目标的url

src 图像文件的url（直接复制到浏览器中，可打开图片）

关于属性，我们不用明白每一个属性的属性值到底是什么意思，只需根据定位需求，找到标签的属性/属性值的相同/不同之处，以实现精准定位。

② 属性和标签的关系

属性是用来修饰标签的。XPath中，属性和属性值有固定写法：属性放在标签后面的[ ]里，属性前加@，属性值放在引号内。

例：//li[@class='subject-item']。

这条XPath的意思是，定位HTML文档中所有 class 属性值为 subject-item 的 li 标签

最近修改: 2023-12-06

大纲