数据采集指令概览
两种采集模式
1. 智能采集
(1)可用场景:适用于大部分采集场景,一键即可采集数据表格、列表数据,如京东商品列表、商品评论等
(2)网页示例
![]() |
![]() |
![]() |
![]() |
![]() |
(3)功能说明
打开八爪鱼RPA,搜索“数据采集”或直接点击软件顶端的“数据采集”即可使用指令,将它加入在流程中
使用方法:将待采集的网页置于前台,”Ctrl+鼠标左键“即可采集数据
Ctrl+鼠标左键点击,红色表示预选中区域,需要哪个数据就点击哪个

如图所示,绿色表示目前已选择的区域,数据预览中就是当前选中的数据
2. 精准采集
(1)可用场景:如果智能采集的数据不符合需求,冗余数据过多,可以采用精准采集
(2)功能说明
在数据预览界面点击"精准采集",进入精准采集模式
指令会自动清空原始采集数据。按“Ctr+点击”选择目标数据即可,每次新增一列数据
采集数据处理
功能名称 | 功能描述 | 示例图 |
表头重命名 | 双击指定表头进行重命名,表头名称不允许重复 | ![]() |
编辑列元素 |
编辑当前列元素的Xpath,修改元素定位。此处的列元素Xpath是该列字段相对于外层循环的Xpath |
![]() |
处理列元素 |
作用:对”xx列“中的每个单元格数据依次按照以下步骤进行处理。 处理动作包含:替换、去除空格、添加前缀、添加后缀、智能提取(数字/手机号码/邮箱)、时间格式转换、正则匹配 |
![]() |
复制列 | 复制当前列,插入当前列的右侧 | ![]() |
移动列位置 | 鼠标左键按住指定列名,进行左右拖动 | ![]() |
提取其他属性 | 提取当前元素的其他属性,属性包含:元素文本、元素链接文本、图片地址、InnerHTML、OuterHTML、更多(自动推导,如class、target、position()等) | |
删除列 | 删除指定列 | |
编辑采集区域 |
修改循环列表的Xpath,调整列表的采集区域,即循环项的Xpath。可以通过校验元素来确认当前Xpath指定的网页区域 |
![]() |
去除重复行 |
可指定某字段作为判断重复行的条件。选择按哪些字段进行去重,默认是使用全部字段,即全部字段的内容都相同时才会删除当前行。 举例:指定标题、标题链接和概要为判断条件,则当某两行数据的这3个字段相同时,只会保留其中一行。 |
![]() |
清空并重新采集 |
清除数据预览中的所有内容 |
![]() |
数据采集指令说明
描述:此指令可批量提取界面中的表格、结构化数据。
使用示例
此流程运行逻辑:
打开博客园网页--->使用【数据采集】指令获取博文标题、简介、作者、发布时间等信息,并将采集到的信息写入指定Excel表中
源码链接:数据采集指令与逐行采集方法对比(可查看逐行采集与用数据采集指令采集的区别)
效果展示:
数据采集指令的操作录屏(该录屏采用1.x版本,与2.x版本会有一些区别)
使用小Tips
- 该指令可快速采集大量数据,若仅需要数据采集,无需边采集边执行额外步骤(如点击)的话,可优先使用该指令
- 八爪鱼 RPA 中可将采集动作大致分为批量采集和逐条采集,具体可查看批量采集&逐条采集