1、案例需求
在“八爪鱼RPA应用市场”中遍历全部的应用,将免费的RPA应用信息采集下来,采集信息包括:应用标题、收费类别、应用简介、上新时间,将采集的数据输出到本地指定excel文件中。
2、需求分析与流程图
2.1 需求分析与搭建思路
打开需要采集的网页页面,在“分类”中可以点击“全部”获取到全部的RPA应用,观察页面发现“RPA应用”并没有常见的点击“下一页”按钮进行数据的翻页,而是通过鼠标滚轮的滚动加载出来更多的数据。
在网页页面中RPA应用有几百个,可以将所有的RPA应用进行页面滚动加载出来之后再进行下一步的数据采集逻辑处理,这里需要注意的是确保滚动加载全部的RPA应用后,网页页面源码HEML仍可以显示出来全部RPA应用的源码,此次的案例网页属于这一种形式。
若网页页面滚动加载数据的时候,网页页面源码只显示当前滚动区域数据的HTML源码(即历史滚动的数据在当前HTML源码中没有了),则需要每一次的滚动加载数据都及时进行当前页面显示区域数据的采集与处理。
通过观察数据加载的页面,发现最后一个“RPA应用”是固定不变的,可以将网页页面是否已经加载出来最后一个“RPA应用”作为结束网页页面滚动的判断逻辑条件(本次案例使用这种判断逻辑);或者在每次滚动之后获取到最后一个“RPA应用”的信息,若在下一次的滚动页面后,“最后一个RPA应用的信息”与上一次滚动页面记录的“最后一个RPA应用的信息”是同一个的话,表示已经加载完成全部数据,亦可结束当前滚动循环。
数据滚动加载完成之后,使用【循环相似元素】对每一个“RPA应用”进行操作,通过判断当前”RPA应用”是否可以“免费”使用,若可以则进行后续数据的采集,并将数据写入到提前定义好的变量【数据表格】中,若不可以则进行下一个“RPA应用”的判断;循环完所有相似元素之后,将【数据表格】统一输出到本地excel数据文件中。
2.2 流程图
3、RPA应用搭建
3.1 应用搭建流程
3.2 应用搭建分析
在滚动页面加载“RPA应用”数据的过程中,通过判断当前网页页面是否出现了 最后一个“RPA应用”,从而满足退出滚动循环的操作的条件。
在对全部“RPA应用”进行循环相似元素中,我们首先拿取到当前“RPA应用”付费类型的文本信息,使用【if】条件判断是否等于“免费”,若不是则结束本次循序,继续下一次的循环;若是,则进行后续相关元素的信息获取与数据写入【数据表格】。
获取到每一个【获取相关元素】之后,直接使用【按行写入内容至数据表格】 将相关元素的数据信息写入到【数据表格】中,“写入内容”的列名与“自定义变量数据表格”的列名保持一致(自定义变量-数据表格要提前创建),“写入内容”的值可直接使用相关元素的网页元素对象的属性。
最后【数据表格】可以使用指令【导出数据表格】快速便捷地将数据导出到本地自定义路径excel文件中。数据输出文件夹路径可以设置为“自定义变量-文件夹选择框”,设置为“应用启动参数”,可以在运行的时候进行选择数据输出保存的文件夹路径,或者可以使用自定义默认值路径。