菜单

数据采集

标签:数据采集 ,列表数据

一键采集网页表格,列表数据

  1.   两种采集模式

       智能采集

    • 使用场景:

           适用于大部分采集场景,一键即可采集表格数据、列表数据,如京东商品列表、商品评论等。

           网页示例:

           

                     

             

    • 功能说明:
             采集功能入口:
           使用方法:打开待采集页面窗口置于前台,“Ctr+点击”采集数据
            (结果示例,绿色表示目前已选择的区域,数据预览中是当前选中的数据)

    精准采集

    • 使用场景:
          如果智能采集的数据不符合需求,冗余数据过多,可以采用精准采集
    • 功能说明:
          数据预览界面,点击精准采集,进入精准采集模式,会自动清空原始采集数据,按“Ctr+点击”选择目标数据即可,每次增加一列。
    1.   采集数据预览

      • 重命名
        • 双击表头进行重命名
        • 表头不允许重复
      • 编辑列元素
        • 进行当前列元素的xpath编辑,修改元素定位。此处的列元素xpath是该列字段相对于循环的xpath。
      • 复制列
      • 移动列位置
        • 鼠标按住该列名,进行左右拖动
      • 提取其他属性
        • 元素文本
        • 元素链接文本
        • 图片地址
        • innerHTML
        • OuterHTML
        • 更多(自动推导,如class、text())
      • 编辑采集区域 
        • 修改循环列表的xpath,调整列表的采集区域;即循环项的xpath。可以通过校验元素去看在网页中选中哪些区域。
      • 去重重复行
        • 选择按哪些字段进行去重,默认是使用全部字段,即全部字段的内容都相同时才会删除当前行。
      • 删除

 

指令说明

描述:批量提取界面中的表格、结构化数据。可以采集列表、表格等数据,支持设置滚动加载、翻页、加载更多等,支持采集全部页面数据、指定条数或指定页数

常规设置

网页对象

选择一个之前通过【打开网页】或【获取已打开的网页对象】指令创建的网页对象

采集目标

一种对象,保存采集数据的xpath及相关配置,通过Ctrl+点击去选择要采集的内容。

对于已经创建好的,可以点击编辑采集目标去修改里面的内容。

翻页方式

当前网页的翻页方式,如果是瀑布流的(懒加载的)软件会自动加载,方式选“无”;其他翻页情况下选“无”,则不再进行翻页。

        翻页按钮:从元素库中选择一个已捕获的元素或通过「捕获新元素」来捕获新的网页元素作为操作翻页按钮

        加载更多按钮:从元素库中选择一个已捕获的元素或通过「捕获新元素」来捕获新的网页元素作为操作加载更多的按钮

采集范围

默认采集全部数据,可以设置采集多少行或多少页的数据。

采集数据保存至

       数据表格:输出的变量是数据表格的名称       

       Excel:需设置导出到哪个文件中,可选择带表头和sheet页导出,输出的变量是Excel文件的路径

输出变量

取决于选择的数据保存方式。

 

高级设置

滚动区域

       整页滚动:滚动整个网页

       指定区域滚动:滚动网页中指定的区域,如采集小红书评论

滚动方式

       直接滚动到底部:适用于网页大部分场景

       滚动一屏:主要针对部分网站如果滚动过快,中间的数据不会加载的情况

翻页间隔时间(s)

 主要用于解决翻页过快页面加载不完整或翻页过快会触发防采的场景,可等待页面加载完成再进入下一步

模拟人工点击翻页按钮

模拟人的操作,和元素点击一致

 

应用示例:

https://rpa.bazhuayu.com/shareableLink/66684f527fbf4351bc41e83f

操作录屏:

数据采集指令的操作录屏

该流程执行逻辑

(该应用分两种方法采集博客园的数据,分别是旧方法分步骤的提取网页数据,新功能数据采集的一步提取网页数据)

打开博客园

使用【数据采集】指令对网页中的标题,简介等数据进行提取,然后导出到Excel文件

最近修改: 2024-06-11