菜单

怎么获取网页源码内的信息（以获取图片链接为例）

问题：如果图片不是img标签，图片的链接也不在src属性中，该如何获取该图片？

以“dhgate”网址为例，打开 https://dg.dhgate.com/mydhgate/index.html，输入任意账号和密码后，会出现验证码。键盘上按下 F12 可以进入开发者调试模式，点击后再点击图片，可以查看到图片的源码，从而知道这张图片的链接在源码的哪个位置。

如下图，该网页的验证码图片在div标签的style属性中。详细操作方式可参考：XPath与八爪鱼RPA

图中（篮框）显示图片的url连接是在div标签的style属性中，需要先拿到style的属性值，对属性值进行正则清洗，就可以获取到完整的图片url链接了；

解决方法

具体实现步骤如下：

1.往流程中拖入一个【获取网页元素信息】指令

2.选择元素》捕获新元素，点击网页上的图片，将其捕获为新元素。

3.修改【操作】类型，选择【获取元素属性】

4.【属性名称】输入“style” ，点击【确定】进行保存，生成新的变量 “元素属性” 。

5.在【数据处理】中选择【正则匹配】指令，拖到流程中。

案例中的正则表达式：https(.*)(?=")

6.【原始文本】选择第4步生成的变量“元素属性”。

7.如果您懂正则表达式可以直接自己写正则表达式，不懂的话，也可以点击【正则工具】来生成一些基本表达式。

8.从网页源码中获取到图片链接所在的元素属性（双引号内的部分），即前面步骤获取到元素属性文本。然后填写在【正则表达式工具】的【源文本】中。再设置【开始】标识和【结束】标识，此处根据变量【元素属性】的文本情况，我们以 https 未开始且包含开始（因为匹配后的结果需要保留https）; 以"为结束。点击【生成】按钮生成正则表达式。点击【匹配】可验证表达式的匹配结果。

9.点击【应用】可将当前正则表达式应用到指令中。

10.回到指令编辑界面后，勾选【只查找第一个匹配项】（不勾选会生成一个文本列表，在使用时需要进行列表循环，或设置序号来调取对应的值，如匹配到的文本列表[1]；操作会更繁琐些。），再点击【确定】。

11.通过【打印日志】指令，可以打印出现最终的处理结果。

示例应用：https://rpa.bazhuayu.com/shareableLink/65a0fd600d759965407a045c

上一个

“未找到页面元素”错误排查

下一个

懒加载(ajax加载)的网页，怎么样才能确保滚动到了网站的最底部？

最近修改: 2026-04-24

大纲