菜单

循环采集单网页列表数据-瀑布流类型网页

应用概览

通过本应用可以实现循环采集某个瀑布流类型网页(鼠标滚动加载出新数据的网站)的列表数据
运行网站: http://search.people.cn/s?keyword=%E5%88%9B%E6%96%B0&st=0&_=1706494865873

流程图

应用场景

采集瀑布流网页列表数据,瀑布流指的是滚动加载的网站
例如微博列表页
 
小红书文章
 

应用讲解

打开网页,在该网页内,按次数滚动后将网页内容都加载出来以后,循环获取网页元素并按行写入到数据表格内,最后导出数据表格

准备工作

创建数据表格,新闻数据
 
 
编辑数据表格表头
 

应用搭建

打开某新闻网页
 
 
为了保证采集不出现重复数据,且瀑布流网站加载出新的数据,我们先滚动加载完全部数据,添加按次数循环,设置鼠标滚动网页
 
这样就实现了循环滚动网页5次加载数据
 
 
由于每次加载需要时间,在滚动后添加一个等待时间
 
接下来和上一章的操作一样,捕获新闻数据
 
捕获列表项,注意这里的列表项元素框一定包含我们所有想要的元素,譬如我们想要标题、来源、时间,那么我们捕获的时候就要捕获一个包含所有元素的元素框
 
 
捕获完成后,给循环项取一个名字,新闻循环项
 
接下来使用【获取相关元素】指令,获取当前循环列表项不同位置的元素数据
 
步骤一:
选择元素,选择新闻循环项,关联方式选择第一个匹配的子孙元素
 
步骤二:
此时指令还是报错状态,我们点击元素,+号按钮,去捕获我们想要的信息(目的是获取相对xpath路径)
 
标题、时间都捕获到元素库内
 
 
此时在右侧可以看到我们刚刚捕获的三个元素
 
 
步骤三:
双击编辑,修改标题名称
 
从下至上依次取消勾选,每取消一次,都去校验一遍元素
 
 
继续取消勾选,校验元素,直到页面元素框和我们最初选择循环时的元素框大小一致
 
 
接下来对红色元素框内的勾选项进行反选,也就是绿色框内的取消勾选,黑色框内的勾选上
 
 
此时并不需要校验,底部预览选择器内的xpath地址即为我们想要的拼接xpath
 
 
点击确定,将拼接循环xpath复制到获取相关元素指令内
 
 
同样的方法用到【日期】上
 
 
使用【获取网页元素信息】指令,选择元素选择我们刚刚在动态元素文件夹里面创建的标题,操作选择【获取元素全部文本内容】,起个名字,注意不能与之前名字重复
 
 
此时我们还需要写入到数据表格内,在获取元素后按行写入数据表格
选择我们最开始创建的列表数据,写入方式选择追加一行,输入方式选择指定列写入
 
 
最后导出即可
 
 

运行应用

 
最近修改: 2024-03-21