菜单

网页字体加密数据采集（OCR识别）

标签：验证码 ,ocr ,OCR

什么是字体加密

字体加密是目前比较常见的数据防采集的方式，很多大型网站会对一些信息进行特殊处理，用户看到的看上去是文字，但复制的时候发现复制的内容是乱码。打开浏览器的Devtools界面检查元素，可以很明显的看到，网页元素看到的内容跟网页实际展示的内容是不一样的。如下图

如果我们想要采集上图所示的价格，最简单的方式就是使用图片识别技术。

如何用八爪鱼RPA实现？

先看流程

运行Python脚本指令的配置

Python脚本如下

import ddddocr
det  = ddddocr.DdddOcr(show_ad=False)
with open(r'截图文件路径', 'rb') as f:
    image = f.read()
res = det.classification(image)
print(res)

这里我们用到了一个图片识别的Python库，我们可以使用下面的命令安装

pip install ddddocr -i https://pypi.tuna.tsinghua.edu.cn/simple

这里使用的是本机的Python环境（建议使用本地Python环境，自己经常使用的库都本地环境里一般都有）

运行效果如下

注：八爪鱼RPA安装后会自带Python运行环境，自带的Python运行环境没有安装额外的Python库，只有Python内置的库，若是自己平时会用到Python开发，用到执行Python脚本指令时可以在高级设置处勾选使用本机Python环境选项，这样我们就可以在指令上引用本机Python环境安装过的所有Python库，使用本机Python环境需要使用Python安装包安装

教程对应的流程已通过链接给大家共享，大家可以点击“示例-Python识别网页的图片加密字体”获取，同时大家也可以扫码加入交流群，和大家一起交流

八爪鱼RPA-用户交流群

最近修改: 2023-12-15

大纲