八爪鱼数据采集器 电话号码采集:八爪鱼采集器如何抓取图片号码
今天我来介绍下,以赶集为例,八爪鱼采集遇到图片或文本形式的电话号码要如何操作。可以直接去规则市场内找到规则修改。
打开客户端,新建一个任务,任务名称可以随意,我采集的是二手手机的所有产品列表下面的电话、QQ号码、联系人。任务建好之后,则进入下一步,核心环节就是任务流程环节。在设计工作流程环节中将网址输入浏览器,点击打开,我们先建立一个当前页要抓取的元素循环表,操作很简单,鼠标移到要采集的元素上点击,弹出对话框,选择【创建一个元素列表以处理一组元素】,添加进列表,接着再继续添加,点击下一个标题,添加元素列表,系统会自动将当前页上所有的产品都读取进列表中,点击添加完成,循环处理即可。
接下来,我们要建立翻页循环,由于列表会有很多页产品,为了让系统自动进行处理,建立翻页循环,直接将鼠标移动到【下一页】的按钮上,直接点击,弹出对话框,选择【循环点击下一页】,建立翻页循环流程。
由于我们是先处理完当前页所有的产品之后再翻页处理下一页的所有产品,所以翻页循环要嵌套再元素列表循环的外围,直接将元素循环框拖入到翻页循环框内
提取字段:就是我们每个产品要提取哪些内容出来,操作也很简单,在元素循环框内有个【点击元素】,用鼠标单击下,工具会自动进入元素的详情页,将你要提取的内容【字段】鼠标移动上去,直接单击,系统自动就建立了一个字段。
由于有的电话是图片,有的电话是文本形式,所以为了实现自动处理,我们要再此设立一个条件分支判断,以其中文本作为TRUE的判断条件,文本提取方式同第五步。而另一个条件的提取字段方法如下:在元素循环列表中找到一个电话为图片的元素,选中,然后点击元素进入对应的详情页,点击电话号码(图片)弹出对话框,点击DIV,选择提取元素的超级链接,则可将URL提取到。
流程就设置完毕了,然后点击下一步,进入到完成界面,你可以选择【单机采集】或者【云采集】,云采集可以关机离线采集,具体使用何种方式,则看你自己选择。
采集完毕之后,导出为EXCEL,然后,将URL的全部筛选出来,去论坛下载图片转换工具,将URL的图片全部下载下来即可。