菜单

循环采集多个网页详情数据-网址循环

应用概览

通过本应用可以实现通过依次打开多个不同网址,批量采集同类型网页的数据
运行网站: http://search.people.cn/s?keyword=%E5%88%9B%E6%96%B0&st=0&_=1706494865873

流程图

应用场景

已有多网址链接,通过这些链接采集数据。一般适用于不能直接从列表页进入详情页或详情页有弹窗的网址,注意要是同类型网页的网址
例如京东详情页
 
招聘网站详情页
 
 
抖音视频详情页
 

应用讲解

准备数据表格(导出用),和txt文件,读取txt文件,建立列表循环,循环打开网页采集数据,最后导出

准备工作

创建数据表格,详情页数据
 
 
 
准备一个包含多网址的txt文件
 

应用搭建

使用【读取文本文件内容】读取txt文件内的网址,选择文件路径,将读取内容存储为文本列表(每一行保存为列表的一项)
 
 
使用列表循环循环所有链接,列表选择文本列表,给每个循环项起个名字,当前链接
 
 
创建后如图所示
 
 
接下来在每次循环内打开网页,打开网页网址选择后面的函数按钮,选择当前链接
 
 
此时我们实现了循环打开网页,不要忘了添加关闭网页,不然网页打开过多容易造成电脑卡死现象
 
 
接下来在打开网页和关闭网页中间添加采集数据即可
创建子流程,让流程更简洁方便管理
 
 
接下来就是编辑子流程采集数据了
使用获取网页元素信息采集网页标题、正文
 
 
将捕获后的数据写入至数据表格内
 
 
同样写入正文,写入后的效果
 
 
最后别忘了在主流程内导出,勾选带表头导出
 

运行应用

 
 
所用网址:
http://yn.people.com.cn/n2/2024/0117/c372441-40716157.html
http://jl.people.com.cn/n2/2023/1214/c349771-40677536.html
http://hb.people.com.cn/n2/2024/0201/c194063-40734241.html
最近修改: 2024-03-21