打开网易新闻 查看精彩图片

之前的教程可以看这里:
1、Web Scraper 使用教程(一)- 安装
2、Web Scraper 使用教程(二)- 基本用法之安装、配置、运行

此为Web Scraper 使用教程第三篇:常用选择器类型的配置,包括text、link、table等。

我们在网上爬取的内容主要就是文本、链接、表格信息等。

视频观看地址:https://v.qq.com/x/page/m30393z7c99.html

text

text类型比较简单,直接提取网页中的文字。

打开网易新闻 查看精彩图片

爬取效果如下:

打开网易新闻 查看精彩图片

link

link的配置和text的差不多,只是type中需要更改一下。

打开网易新闻 查看精彩图片

爬取效果如下:

table

table的比较复杂一下,如下图

打开网易新闻 查看精彩图片

需要设定所有表格数据、表格第一行、需要爬取哪几行、需要爬取哪几列(字段)

其中字段设置需要注意字段的长度

爬取效果如下:

打开网易新闻 查看精彩图片

视频中还介绍了以通过使用text类型来爬取图表中的内容,但是相对更麻烦,配置也会更多。

使用table类型的配置

打开网易新闻 查看精彩图片

使用text类型的部分配置

打开网易新闻 查看精彩图片

元素选择器

最后简单介绍了下元素选择器的作用场景,后续会更为详细的介绍如何来配置。

打开网易新闻 查看精彩图片