菜单

怎么获取网页源码内的信息(以图片链接为例)

问题

图片不是img标签,图片链接也不在src属性中;如何获取该图片?

打开 https://dg.dhgate.com/mydhgate/index.html,输入任意账号和密码后,会出现验证码。键盘上按下 F12 可以出现调试模式,点击后再点击图片,可以查看到图片的源码,从而知道这张图片的链接在源码的哪个位置。如下图,该网页的验证码图片在div标签的style属性中。详细操作方式可参考:XPath与八爪鱼RPA

解决方法 

具体实现步骤如下:

1.往流程中拖入一个【获取网页元素信息】指令

2.选择元素》捕获新元素,点击网页上的图片,将其捕获为新元素。

3.修改【操作】类型,选择【获取元素属性】

4.【属性名称】输入“style” ,点击【确定】进行保存,生成新的变量 “元素属性” 。

5.在【数据处理】中选择【正则匹配】指令,拖到流程中。

6.【原始文本】选择第4步生成的变量“元素属性”。

7.如果您懂正则表达式可以直接自己写正则表达式,不懂的话,也可以点击【正则工具】来生成一些基本表达式。

8.从网页源码中获取到图片链接所在的元素属性(双引号内的部分),即前面步骤获取到元素属性文本。然后填写在【正则表达式工具】的【源文本】中。再设置【开始】标识和【结束】标识,此处根据变量【元素属性】的文本情况,我们以 https 未开始且包含开始(因为匹配后的结果需要保留https); 以"为结束。点击【生成】按钮生成正则表达式。点击【匹配】可验证表达式的匹配结果。

9.点击【应用】可将当前正则表达式应用到指令中。

10.回到指令编辑界面后,勾选【只查找第一个匹配项】(不勾选会生成一个文本列表,在使用时需要进行列表循环,或设置序号来调取对应的值,如 匹配到的文本列表[1];操作会更繁琐些。),再点击【确定】。

11.通过【打印日志】指令,可以打印出现最终的处理结果。

示例应用:https://rpa.bazhuayu.com/shareableLink/65a0fd600d759965407a045c

最近修改: 2024-01-12