应用概览
通过本应用可以实现通过依次打开多个不同网址,批量采集同类型网页的数据
运行网站: http://search.people.cn/s?keyword=%E5%88%9B%E6%96%B0&st=0&_=1706494865873
流程图
应用场景
已有多网址链接,通过这些链接采集数据。一般适用于不能直接从列表页进入详情页或详情页有弹窗的网址,注意要是同类型网页的网址
例如京东详情页
招聘网站详情页
抖音视频详情页
应用讲解
准备数据表格(导出用),和txt文件,读取txt文件,建立列表循环,循环打开网页采集数据,最后导出
准备工作
创建数据表格,详情页数据
准备一个包含多网址的txt文件
应用搭建
使用【读取文本文件内容】读取txt文件内的网址,选择文件路径,将读取内容存储为文本列表(每一行保存为列表的一项)
使用列表循环循环所有链接,列表选择文本列表,给每个循环项起个名字,当前链接
创建后如图所示
接下来在每次循环内打开网页,打开网页网址选择后面的函数按钮,选择当前链接
此时我们实现了循环打开网页,不要忘了添加关闭网页,不然网页打开过多容易造成电脑卡死现象
接下来在打开网页和关闭网页中间添加采集数据即可
创建子流程,让流程更简洁方便管理
接下来就是编辑子流程采集数据了
使用获取网页元素信息采集网页标题、正文
将捕获后的数据写入至数据表格内
同样写入正文,写入后的效果
最后别忘了在主流程内导出,勾选带表头导出
运行应用
所用网址:
http://yn.people.com.cn/n2/2024/0117/c372441-40716157.html
http://jl.people.com.cn/n2/2023/1214/c349771-40677536.html
http://hb.people.com.cn/n2/2024/0201/c194063-40734241.html
http://jl.people.com.cn/n2/2023/1214/c349771-40677536.html
http://hb.people.com.cn/n2/2024/0201/c194063-40734241.html