菜单

循环采集单网页列表数据

1. 应用说明

通过本应用可以实现循环采集某个网页的列表数据

 

2. 应用实现逻辑

模拟、分析人操作全流程

第一步:打开人民网(示例网址:http://search.people.cn/s?keyword=%E5%88%9B%E6%96%B0&st=0&_=1706494865873)

第二步:找到新闻列表第一行,获取当前新闻的标题和来源,在预先准备好的表格中记下标题和来源

 

第三步:找到新闻列表第二行,获取当前新闻的标题和来源,在预先准备好的表格中记下标题和来源

 

依此类推,直至当前页面所有新闻都循环完毕。

 

RPA流程图

 

3. 应用实现

前期准备

截图 准备事项

创建数据表格,命名为“列表数据“用于后续存储数据。

 

流程指令解析

指令截图 解析
按照习惯选择常用的浏览器类型,可选八爪鱼浏览器、谷歌浏览器、Edge浏览器等,网址则填写人民网的网址(http://search.people.cn/s?keyword=%E5%88%9B%E6%96%B0&st=0&_=1706494865873),最后将此网页对象命名为人民网搜索创新列表页。

依次循环”人民网搜索创新列表页“中新闻列表的每一则新闻,将当前循环到的新闻项命名为”列表循环项“

捕获列表项,注意这里的列表项元素框一定包含我们所有想要的元素,比如我们想要标题和来源,那么我们捕获的时候就要捕获一个包含这些元素的元素框

注意:对相似元素有疑问,可参考相关文档:相似元素列表

上一条指令仅仅只是获取了整体的列表项,并没有告诉 RPA 我们想要这个列表项里具体哪些数据。这时候就要用到获取相关元素指令,该指令可以获取当前循环列表项不同位置的元素数据。

获取当前新闻的关联元素,本应用中的关联方式都是第一个匹配的子孙元素。以新闻标题为例,新闻来源同理,因此不再赘述。

在元素库内点击”捕获新元素“

按住Shift键,鼠标左键移动至第一则新闻的标题,鼠标左键点击--->再移动至第二则新闻的标题,鼠标左键点击-->复制Xpath中多出的部分(相较于新闻整体的Xpath),即/div[1]/div[1]/a[1]

每次循环新闻的时候,都把对应新闻关联元素的文本信息(元素.Text)写入数据表格中

数据表格的主要作用是临时存储数据,若应用重新运行,则之前的数据会被清空。因此我们需要将获取到的新闻信息以Excel或Csv的格式导出至本地。

 

运行效果

4. 更多案例

采集网页列表数据,列表数据的定义并不仅仅局限于传统意义上的一行行列表。列表的形式多种多样,只要是有序排布,大的元素块内包含很多小的信息即可。

网页类型 附图
天猫商城搜索列表页
新闻网站列表数据
房产信息列表数据
 
上一个
单网页多关键词搜索-数据表格
下一个
循环采集单网页列表数据-瀑布流类型网页
最近修改: 2025-08-27