菜单

第1节 创建第一个应用

1.应用说明

根据用户输入的关键词搜索八爪鱼相关博客,并获取博客标题、分类、简介信息,最后将信息存储在Excel表中。

 

2.应用实现逻辑

模拟、分析人操作全流程

第一步:打开八爪鱼RPA博客网页以及准备一个空白的excel用于后期记录数据。我们需要拿到八爪鱼RPA博客的网址。实际情况下有些目标网页我们是通过文字搜索打开的,可能并不一定能清晰记得目标网页的网址,对于这种情况建议先搜索获取到准确的网址再进行后续的操作。(示例网址:https://rpa.bazhuayu.com/blog)

第二步:确认获取数据前需要经过什么步骤,在此场景下我们是希望获取跟关键词有关的博客。因此首先需要找到输入框的位置,在输入框中输入目标关键词,再点击搜索按钮,这样就能得到跟关键词有关的博客了。且可能我们想查找的关键词不止一个,这个时候就需要循环搜索,即搜索完第一个关键词之后接着搜索第二个关键词。

第三步:输入关键词后,页面会有一个加载的过程,这个过程的快慢跟电脑本身以及网络有很大的关系,我们需要等待页面加载完成之后,才能完全看到可见数据。接着就是根据可见数据来判断哪些字段是我们想要的,下方图片中以查找出来的第一篇博客为例,我们要拿到博客的标题、分类和简介。

第四步:已经确认完我们需要的字段信息后,就可以循环获取当前页面的每一篇博客信息,并且每次循环的时候都需要将相关字段信息插入Excel表的下一行。当前关键词搜索结果如果不止一页,那还需要翻页获取下一页的信息,直到最后一页的信息也获取完毕。

第五步:最后还需要保存excel表格,防止数据丢失。

 

RPA流程图

 

3.应用实现

 

前期准备:自定义变量

在开始搭建流程之前,需要先新建自定义变量关键词。

关键词:可快捷更改用于搜索的关键词,支持输入多个关键词,列表格式:["关键词1","关键词2",...,"关键词n"]

 

流程指令分步骤解析

第一步

1.1【启动Excel】在指定路径下(自己指定)新建Excel表格,用于存储需要导出的信息;驱动方式可按照习惯自选,选项有默认、office、wps;最后将此过程中生成的变量命名为excel变量。

注意:使用该指令时,会默认连带【关闭Excel】的指令,为避免流程运行完成后Excel表格自动关闭,查看数据时需要手动打开表格,因此将此指令删除,替换为【保存/另存Excel】指令。

操作步骤:将【启动Excel】指令从指令区拖拽至流程编辑区-->填写【启动Excel】指令中的参数-->将鼠标置于【关闭Excel】上,右键选择删除

1.2【打开网页】按照习惯选择常用的浏览器类型,可选八爪鱼浏览器、谷歌浏览器、Edge浏览器等,网址则填写八爪鱼博客的网址(https://rpa.bazhuayu.com/blog),最后将此网页对象命名为八爪鱼博客网页。

注意:需确保相关浏览器的八爪鱼插件已经安装且开启,相关文档:自动化插件

 

第二步

2.1【列表循环】依次循环关键词列表中的每一个关键词,并且把当前循环到的关键词命名为当前关键词。假设此时关键词列表里面有AI和运营两个关键词,那么会按照顺序先获取与AI关键词相关的博客信息,再获取与运营相关的博客信息。

注意:每个循环相关的指令都会自动连带“循环结束标记”指令,该指令不需要输入参数,也不能删除,否则会报错。下方与循环相关的指令同理,不再赘述。

2.2【填写网页输入框】在输入框元素中输入当前循环到的关键词。

2.3【点击网页元素】点击搜索按钮,查看搜索结果。

注意:可通过点击搜索按钮查找或勾选2.2步骤中的“输入完成后按下回车键”查找。如果勾选2.2步骤中的“输入完成后按下回车键”,2.3步骤可删除。通过2.3步骤获取的搜索元素,只适用于搜索第一个关键词,后续搜索按钮会变成放大镜图标,在不更改Xpath的情况下会报错。

 

第三步

3.1【等待网页加载】如果网页未加载完毕,可能导致后续步骤报错。保险起见,需要在此处先等待网页加载完毕。

 

第四步

4.1【按次数循环】对嵌套的指令按照给定的次数循环运行,下方嵌套的指令包含两个过程,一是获取当前页面的博文信息,二是点击翻页按钮,每循环一次,都会经历这两个过程。循环次数中填写的数值可以根据实际情况指定,该案例填写50的原因是博客数量不多,关键词搜出来的博客结果最多不会超过50页,因此循环50次已足够。

4.2【循环相似元素(web)】依次循环八爪鱼博客网页中当前关键词搜索下博文列表的每一项,将当前循环到的博文项命名为当前博客。

 

注意:对相似元素有疑问,可参考相关文档:相似元素列表

4.3【获取相关元素】获取当前笔记的关联元素,该应用中的关联方式都是第一个匹配的子孙元素。以博客标题为例,博客分类和博客简介同理,因此不再赘述。

点击“捕获新元素“

按住ctrl键,鼠标左键选中第一篇博客的标题-->点击“完成”

点击查看完整元素库-->找到刚捕获的博客标题元素后,点击编辑按钮

从下往上逐个点击元素节点,直到看到与相似元素列表相同的class属性值

点击上一步骤下方的最后一个元素节点,勾选class属性值,预览选择器中框选的Xpath(/div[@class='truncate font-semibold text-lg'])需要复制下来

复制下来的Xpath需要填入相对Xpath一栏中(此步骤点击捕获新元素就是为了获取标题相对于当前博客的相对Xpath,因此“选择”元素一栏需要填“当前博客”元素)

参考:

博客分类的相对Xpath://span[@class="el-breadcrumb__item"]

简介的相对Xpath://div[@class="hl-search-desc text-base mt-2.5"]

注意:对Xpath相关知识有疑问,可参考相关文档:XPATH系统学习与实例

4.4【按行写入内容至Excel工作表】每次循环笔记的时候,都把对应笔记关联元素的文本信息(元素.Text)写入excel表中。

4.5【If网页包含】检测当前页面是否含有“翻页”按钮且并非处于最后一页,该指令需要放在“循环结束标记”的后面。

注意:每个if判断相关的指令都会自动连带“End If”指令,该指令不需要输入参数,也不能删除,否则会报错。

4.6【点击网页元素】如果当前页面含有“下一页”按钮,则需点击该按钮进入下一页页面,并再次获取新页面的博客列表信息。

注意:“下一页按钮”需要捕获两次,第一次是当前页面处于首页的时候捕获,第二次是当前页面处于末页的时候捕获。再对比这两次捕获的元素Xpath,找到属性值不一样的属性,勾选“处于首页时捕获的元素”的该属性,再点击确定保存。这步操作可以避免页面已经处于最后一页的情况下,RPA依然持续不断点击下一页,造成应用死循环。

4.7【Else】与If成对出现,If中的条件不成立,则需要用到else指令。

4.8【跳出循环】用于跳出当前的循环,案例中的当前循环是按次数循环。流程运行到此处则意味着当前关键词相关的博客信息已经获取完毕,跳出当前关键词的循环,继续搜索下一个关键词相关的博客信息。

第五步

5.1【保存/另存为excel】保存excel文件,防止信息丢失,该指令需放在循环结束标记的后面。

示例数据

涉及指令的帮助文档

启动Excel

打开网页

列表循环

填写网页输入框

点击网页元素

等待网页加载

按次数循环

循环相似元素(web)

获取相关元素

按行写入内容至Excel工作表

If网页包含

Else

跳出循环

保存/另存为excel

上一个
搭建第一个机器人应用
下一个
第2节 给应用进行封装
最近修改: 2024-10-30