Web Scraper数据分析爬虫工具简单配置方法

上一节主要介绍了怎样安装Web Scraper和它的优缺点。这篇老猿来说下Web Scraper的工作原理和配置方法。

还不太了解Web Scraper是什么的先看看上一篇,Web Scraper教程

Web Scraper是一个Chrome浏览器插件程序,它是运行在Chrome浏览器上的并且只能在Chrome浏览器上管理和配置。就像以前我们抢火车票安装的浏览器插件一样。

如何打开Web Scraper

上一篇我们讲了如何安装,那么怎样打开Web Scraper呢
Web Scraper的操作界面在Chrome浏览器的开发者工具里,打开开发者工具的方法是:windows和linux操作系统下同时按 Ctrl+Shift+I 或者 fn + f12 ;mac 操作系统下 按 Cmd + Opt + I 就可以打开。
你也可以在Chrome浏览器的选项里 找到 工具—>开发者工具 打开。 只是使用快捷键要快速一点。

打开开发者工具后,鼠标点击下图标红的 Web Scraper,点击后就进入到了Web Scraper操作界面。

Web Scraper数据分析爬虫工具简单配置方法

上图你会看见 “Sitemaps”,”Sitemap”,”Create new sitemap”三个选项。

sitemap 是什么意思
你要抓取网站数据,就要制定一个抓取规则,比如是抓标题?图片?正文内容?要抓多少页?这些你都要按照Web Scraper的要求配置成规则,你可以理解为一个sitemap就是一个完整的抓取规则。一个完整的sitemap规则至少由三部分组成,一个Start URL,一个Link Selector和一个Text Selector。

Start URL是抓取的入口链接,Link Selector是抽取页面链接的规则,Text Selector是抽取文本信息的规则。

这时你看到上图的界面都是空的,因为还没有创建配置sitemap(即规则)。现在我们就来创建一个sitemap,先跟着步骤做一遍,有个初步认识。

Web Scraper Sitemap配置步骤

我们先配置起一个简单的sitemap,让它抓起来,先直观感受一下,看官亲们可以跟着操作起来。我们拿抓时光网电影热度举例,我们的目标是要把时光热度中第一页里的电影链接和剧情介绍,编剧信息抓下来。(图1标红的是电影链接,图2标红的是编剧和剧情等信息)。

图一是时光网电影热度列表页,点击电影名称后,会进入电影介绍详情页,就是图二所示。

Web Scraper数据分析爬虫工具简单配置方法

图一

Web Scraper数据分析爬虫工具简单配置方法

图二

 

步骤1:点击第三个Create new sitemap选择Create Sitemap。出现如下界面。

Web Scraper数据分析爬虫工具简单配置方法

步骤2:在Sitemap name里填写一个名字,你随便起(只能是小写字母和数字),比如要抓取时光电影热度,就填写 mtime-hot。(不能少于3个字母)
Start URL就是要抓取的入口URL,我们要抓的是时光网热度榜首页,所以这里填时光网热度榜首页URL。点击下面的Create sitemap按钮。这里就把Start URL建立好了。

步骤3:此时你进入到了如下界面。

Web Scraper数据分析爬虫工具简单配置方法

这时就要配置Link selector(选择器)的规则了,就是我们要把首页那些电影的链接(也就是URL)提取出来。点击下面的Add new selector按钮开始配置Selector。

 

步骤4:在出现的界面里,按照标红的顺序依次填入和点击。

Web Scraper数据分析爬虫工具简单配置方法

注解上图:
红1:id 随便填,最好是表明意义就好。
红2:Tyep是选择selector的类型,是配置中比较关键的,在下拉框中选择 Link,Link就是链接url的意思,里面还有Text是文本信息的意思, 因为我们这是要提取电影的链接地址,所以就选Link。
红3:点击 Select 。后面再解释。
红4:点击第三步Select后,用鼠标点击 4 标红出的 文字,再接着点击5和6标红的文字。
红7:完成红4-6后,点击 Done Selecting!
然后把红3下面的Multiple勾选一下,不勾选就只会抓一个链接,而我们想要抓的是一批链接。

红9:这时你可以点击红9的Data preview来检查是否正确,正确的话,会显示一个表格,里面是一行行链接地址。
红10:完成上面步骤后,点击Save selector
这时抓取电影链接的Link selector就配置好了。接下来就要配置抓电影正文的Text selector了。

要抓取电影详情页里的剧情,编剧信息,当然要点击进入电影详情的网页里配置,点击如下标红的标题就会进入电影详情页

Web Scraper数据分析爬虫工具简单配置方法

 

这里还有个小问题要解决一下,你点击上面的标题,会在一个新的tab页面里打开,在新的页面里之前的web scraper界面就看不到了。如果你很熟悉web scraper了,就可以直接从开发者工具里把它再调出来。

如果不想这样操作的话,有一个小技巧可以不新开tab打开网页,而是在当前页面打开。

就是鼠标右击上面的标红标题,选择检查,然后把target=”blank”去掉,如下图:

Web Scraper数据分析爬虫工具简单配置方法

 

Web Scraper数据分析爬虫工具简单配置方法

Web Scraper数据分析爬虫工具简单配置方法

这样再点击那个标题就不会打开新页面了。好了,回到正题,此时你应该已经进入了电影详情页,如下图:

Web Scraper数据分析爬虫工具简单配置方法

这时就该配置Text Selector了,点击上面标红的movie-links,一定要点击啊,然后进入到新的add new selector界面,再点击Add new selector。

Web Scraper数据分析爬虫工具简单配置方法

步骤6:完成了步骤后,你应该进入到如下selector界面,如下图:

Web Scraper数据分析爬虫工具简单配置方法

 

在上图中ID 也是随便填,有意义就好,比如是抽取导演,就写个diretor。

Type就选Text,因为这是在提取文本信息了,所以选Text。

点击Selector那行的select后,用鼠标选中导演那里的文字,然后点击Done selecting,然后再点击save selector,我们的抽取导演信息的Text selector也就配置好了。

Web Scraper数据分析爬虫工具简单配置方法

我们再点击上图的add new selector按钮,再创建一个Text selecto,抽取剧情介绍,还是按照上面的方法做。做完之后就有两个Text Selector。

Web Scraper数据分析爬虫工具简单配置方法

 

步骤7:完成步骤6后,我们一个简单sitemap就配置好了,它可以工作抓取了。这时你点击如图里的”Sitemap crawl-douban-yingpin”下拉框选择Scrape,在随后出现的界面直接点击starting scraping,Web Scrape就开始工作抓取了。

Web Scraper数据分析爬虫工具简单配置方法

还要再配置一下,请求间隔时间和等待页面加载时间。

Web Scraper数据分析爬虫工具简单配置方法

Request interval就是请求间隔时间,就是访问一个链接后,隔多久再访问下一个链接。

Page load delay就是等待页面加载时间,因为网络等原因页面内容没有全部加载完,所以需要等待加载完,不然有可能抓取不到内容。

上面两个最好设置的大一点,太小了,有可能访问频率太高会被对方把你的IP屏蔽了,上图4000是4000毫秒,表示4秒的意思。

点击Start scraping后稍等一会就抓取完了,会出现Refresh按钮,点击一下就能看到数据了,然后选择导出CVS文件到电脑里,CVS文件你可以使用Excel直接打开。

Web Scraper数据分析爬虫工具简单配置方法

上面有很多参数和选项,老猿没有解释,怕一时说太多,我自己都说迷糊,说得没条理,所以就把主流程说一下,亲们照照着上面得例子都操作一下,做熟练一点。我们后面再来解释细节和进阶配置。

Web Scraper数据分析爬虫工具简单配置方法Web Scraper数据分析爬虫工具简单配置方法Web Scraper数据分析爬虫工具简单配置方法

Web Scraper数据分析爬虫工具简单配置方法

版权声明:zisheng 发表于 2021-04-19 0:31:53。
转载请注明:Web Scraper数据分析爬虫工具简单配置方法 | Assistants-产品经理导航

暂无评论

暂无评论...