菜单

循环采集单网页列表数据

应用概览

通过本应用可以实现循环采集某一个网页的列表数据
运行网站: http://search.people.cn/s?keyword=%E5%88%9B%E6%96%B0&st=0&_=1706494865873

流程图


应用场景

采集网页列表数据,列表数据的定义并不仅仅局限于传统意义上的一行行列表,列表的形式多种多样,只要是有序排布,大的元素块内包含很多小的信息即可
例如天猫商城搜索列表页
 
 
新闻网站列表数据
 
 
房产信息列表数据
 

应用讲解

打开网页,在该网页内,循环获取网页元素并按行写入到数据表格内,最后导出数据表格

准备工作

创建数据表格,列表数据
 

应用搭建

打开搜索后的列表页网页
捕获列表项,注意这里的列表项元素框一定包含我们所有想要的元素,譬如我们想要标题、来源、时间,那么我们捕获的时候就要捕获一个包含所有元素的元素框
如图所示:
 
捕获完成后,给循环项取一个名字,列表循环项
 
 
可以看到循环相似元素(web)指令已经创建,应用如图
 
 
此时我们仅仅只是获取了整体的列表项,并没有告诉RPA我们想要这个列表项里面具体的哪些数据,这时候就要用到获取相关元素指令,该指令可以获取当前循环列表项不同位置的元素数据
 
具体操作如下:
步骤一:
选择元素,点击选择元素库的按钮,在下拉菜单中,选择【动态元素】文件夹下的列表循环项,由于它是随着循环列表变而变的所以在动态元素文件夹内
 
步骤二:
关联方式选择第一个匹配的子孙元素
 
此时我们先给他起个名字标题,相对xpath先留空,点击确定,接下来我们去获取相对xpath(不需要学会也可获得)
 
 
步骤三:
此时指令还是报错状态,我们点击元素,+号按钮,去捕获我们想要的信息(目的是获取相对xpath路径)
 
标题、来源、时间都捕获到元素库内
 
 
此时在右侧可以看到我们刚刚捕获的三个元素
 
 
步骤四:
双击编辑,修改标题名称
 
此时到了最关键的一步,我们可以看到左侧边栏是有很多的选项的,前面有四项是勾选上的,此时我们要做的是从下至上依次取消勾选,每取消一次,都去校验一遍元素
 
 
当取消勾选第一个底部元素,校验元素时,页面内出现一个高亮框
 
 
继续取消勾选,校验元素
 
 
观察到网页内高亮框扩大了一些,和我们最初选择循环时的元素框大小一致
 
 
接下来对红色元素框内的勾选项进行反选,也就是绿色框内的取消勾选,黑色框内的勾选上
 
 
此时并不需要校验,底部预览选择器内的xpath地址即为我们想要的拼接xpath
 
 
点击确定,将拼接循环xpath复制到获取相关元素指令内
 
 
同样的方法用到【来源】上
 
 
完成后效果
 
 
我们此时仅仅是获取到目标元素,并没有获取到目标元素的文本(因为元素内不止包含文本内容,还包括链接等,所以我们写入前一定要获取到文本信息)
使用【获取网页元素信息】指令,选择元素选择我们刚刚在动态元素文件夹里面创建的标题
 
 
操作选择【获取元素全部文本内容】,当然如果你需要其他数据也可以选择链接等
 
 
起个名字,注意不能与之前名字重复
 
 
来源也是一样的操作,配置完成后指令如图
 
 
此时我们还需要写入到数据表格内,在获取元素后按行写入数据表格
选择我们最开始创建的列表数据,写入方式选择追加一行,输入方式选择指定列写入
 
 
写入内容,第一列写入我们刚刚创建的【标题文本】
 
 
第二列写入来源文本
 
 
最后导出即可
 
 

运行应用

 
最近修改: 2024-03-21