菜单

网页字体加密数据采集(OCR识别)

标签:验证码 ,ocr ,OCR

什么是字体加密

字体加密是目前比较常见的数据防采集的方式,很多大型网站会对一些信息进行特殊处理,用户看到的看上去是文字,但复制的时候发现复制的内容是乱码。打开浏览器的Devtools界面检查元素,可以很明显的看到,网页元素看到的内容跟网页实际展示的内容是不一样的。如下图

如果我们想要采集上图所示的价格,最简单的方式就是使用图片识别技术。

如何用八爪鱼RPA实现?

先看流程

运行Python脚本指令的配置

Python脚本如下

import ddddocr
det  = ddddocr.DdddOcr(show_ad=False)
with open(r'截图文件路径', 'rb') as f:
    image = f.read()
res = det.classification(image)
print(res)

这里我们用到了一个图片识别的Python库,我们可以使用下面的命令安装

pip install ddddocr -i https://pypi.tuna.tsinghua.edu.cn/simple

这里使用的是本机的Python环境(建议使用本地Python环境,自己经常使用的库都本地环境里一般都有)

运行效果如下

注:八爪鱼RPA安装后会自带Python运行环境,自带的Python运行环境没有安装额外的Python库,只有Python内置的库,若是自己平时会用到Python开发,用到执行Python脚本指令时可以在高级设置处勾选使用本机Python环境选项,这样我们就可以在指令上引用本机Python环境安装过的所有Python库,使用本机Python环境需要使用Python安装包安装

教程对应的流程已通过链接给大家共享,大家可以点击“示例-Python识别网页的图片加密字体”获取,同时大家也可以扫码加入交流群,和大家一起交流

八爪鱼RPA-用户交流群

最近修改: 2023-12-15