菜单

第2节 数据采集

1、循环相似元素

在RPA应用中,对于元素相似度的极高的,并且属于同一个父级元素下面的子元素,可以使用【循环相似元素】指令去批量处理后续的子操作。

如在“八爪鱼RPA帮助中心”中的“热门教程”信息里,页面上三种阶段教程的排版都是有规律性的,通过【F12】进入开发者模式观察页面源码,发现每阶段教程都是在各自的<li>标签中,所有文章的<li>标签存在于同一个<div>.<ul>之下,具有相同的父级元素标签,如果我们需要对多文章进行后续的操作处理的话,可以使用【循环相似元素】指令获取到每一个文章元素。【循环相似元素】获取方式见:上节内容(后续增加引用上节超链接)。

 

2、相关元素

获取到【循环相似元素】之后,在循环中使用【获取相关元素】指令可以处理每个元素的操作。如,获取“热门教程”中每一种教程的标题与教程的链接,通过前面的观察发现每一个“教程元素”的父级都是一样的,可以批量去处理这些“教程元素”。在【获取相关元素】的“关联方式”选择“第一个匹配的子孙元素”,“相对xpath”写入“循环相似元素”指令xpath之后的子孙元素的xpath。

在案例中【循环相似元素】指令的xpath已经是每个“教程”的最外层的<li>标签了,“关联方式”中的“相对xpath”则填入<li>标签后续的xpath,如教程标题文本所在的xpath是“/a/div”,教程链接所在的xpath是“/a”。

 

获取到“相关元素”之后,有两种方式可以拿到元素的文本信息、源代码、属性值等信息。

一种是使用【获取网页元素信息】指令,选择对应的元素与操作,生成变量。如想获取教程的标题,对应选择的操作是“获取元素全部文本内容”;如想获取教程的链接,对应选择的操作是“获取元素链接地址”。

另一种是直接通过【获取相关元素】生成的网页元素对象,直接获取网页元素对象的文本信息、源代码、属性值等信息,无需使用【获取网页元素信息】指令。如想获取教程的标题,调用“网页元素对象.Text“即可;如想获取教程的链接,调用“网页元素对象.Link“即可。

 

 

打印输出的结果:

 

3、数据采集

在八爪鱼RPA中对“网页对象”进行数据采集,【数据采集】指令可以快捷自动生成采集区域的只能识别数据,用户可以对智能识别的数据按照自身需求进行整。

在【数据采集】指令中,按住【Ctrl】键通过鼠标快捷选择网页页面上的字段信息,生成一个“数据采集”的“采集目标”,可以通过“编辑采集目标”来实现采集的自定义更改,或者增加自定义固定字段。

 

 

如需要更改调整智能识别出来的“采集目标,可以通过点击”编辑采集目标”进入“批量抓取数据”窗口,点击相应的字段可以对字段重新命名,或者更新字段的采集方式、编辑列元素,可以使用“自定义xpath”来更改调整采集目标。

 

 

应用输出结果:

 

"数据采集"生成的变量是一个数据表格类型的数据,可以使用【循环数据表格内容】指令将数据表格的每一行数据遍历出来进行后续的操作;或者使用【导出数据表格】指令直接将数据表格内容导出至本地excel文件。

上一个
第1节 基本概念与操作
下一个
第3节 综合案例
最近修改: 2024-11-20