什么是字体加密
字体加密是目前比较常见的数据防采集的方式,很多大型网站会对一些信息进行特殊处理,用户看到的看上去是文字,但复制的时候发现复制的内容是乱码。打开浏览器的Devtools界面检查元素,可以很明显的看到,网页元素看到的内容跟网页实际展示的内容是不一样的。如下图
如果我们想要采集上图所示的价格,最简单的方式就是使用图片识别技术。
如何用八爪鱼RPA实现?
先看流程
运行Python脚本指令的配置
Python脚本如下
import ddddocr
det = ddddocr.DdddOcr(show_ad=False)
with open(r'截图文件路径', 'rb') as f:
image = f.read()
res = det.classification(image)
print(res)
这里我们用到了一个图片识别的Python库,我们可以使用下面的命令安装
pip install ddddocr -i https://pypi.tuna.tsinghua.edu.cn/simple
这里使用的是本机的Python环境(建议使用本地Python环境,自己经常使用的库都本地环境里一般都有)
运行效果如下
注:八爪鱼RPA安装后会自带Python运行环境,自带的Python运行环境没有安装额外的Python库,只有Python内置的库,若是自己平时会用到Python开发,用到执行Python脚本指令时可以在高级设置处勾选使用本机Python环境选项,这样我们就可以在指令上引用本机Python环境安装过的所有Python库,使用本机Python环境需要使用Python安装包安装
教程对应的流程已通过链接给大家共享,大家可以点击“示例-Python识别网页的图片加密字体”获取,同时大家也可以扫码加入交流群,和大家一起交流
八爪鱼RPA-用户交流群