盐城鹤翔网络 咨询电话
seo密码

分布式Spider和“降权蜘蛛”

发布时间:2014年4月2日 发布人:鹤翔网络
由于Spider(搜索引擎蜘蛛)所要抓取的网页太多,如果只有单一的一个Spider进行抓取作业,那么将需要非常巨大的计算能力,同时也会消耗更多的抓取时间。这里就引入了分布式计算的概念,把庞大的抓取作业任务分割成很多较小的部分,使用大量合理计算能力的服务器来承载这个任务,以完成对全互联网网页的快速抓取。现在大型搜索引擎都会使用分布式计算,同样Spider也会使用分布式计算,可以称这种Spider为分布式Spider,它遵循了分布式计算的主要规则,根据这些规则也可以解释现在站长和SEO人员关心的“降权蜘蛛”问题。

      分布式计算有很多种计算方式,这里简单介绍Spider应有的分布式抓取策略。涉及分布式计算,也就涉及任务分发机制。整个分布式Spider系统需要保证所有Spidei•之间不会有重复抓取的情况发生,也就是要为各个Spider分配好抓取范围。当一个Spider发现一个新的URL时,会判断该URL是否在自己的抓取范围之内,如果在自己的抓取范围之内,就会把该URL放到自己待抓取URL队列中;如果不在自己的抓取范围之内,就会把该URL提交给上级服务器,由上级服务器分发给相应的Spider,并加入到该Spider的待抓取URL列表中。

      要确保所有Spider的作业不重复,就要求每个Spider都有自己的抓取范围,也就是说每个Spider都会只抓取指定类型的网页。这里就要看搜索引擎是如何对网页进行分类的了,常规网页的分类方法有三种,第一种是按照优秀站点、普通站点、垃圾站点、降权站点和屏蔽(被K)站点等站点质量等级分类;第二种是按照网站首页、网站目录页、网站内容页、网站专题页、视频、图片、新闻、行业资料、其他类型的网络文件(PDF、Word、Excel等)等网页类型分类;第三种是按照站点或网页内容所在行业分类。在真正的Spider系统设计中,为了减少搜索引擎和被抓取站点服务器之间的握手次数(影响抓取效率的重要因素),站点级别相关的分类应该是被优先使用的。

      Spider会严格按照自己的作业任务进行作业,由以上分类可以看出,对于大部分中小网站一般都会有一个固定的Spider进行抓取,所以很多站长和SEO人员在分析网站日志时所发现的百度Spider经常都是同一IP段的,但是不同网站之间发现的Spider的IP段并不同。理论上,如果参与研究的站点比较多,类型比较丰富,就可以比较容易地分辨出百度Spider的任务分发模式,这样通过分析日志中百度来访Spider的IP就可以判断出自己的站点在百度搜索眼中是什么样的。

      针对第一种分类方式,就可能出现某一IP段的Spider只抓取权重高的网站,某一IP段的Spider只抓取已被搜索引擎降权或者屏蔽的网站。如果真的是采用这种任务分发方式,那么网络上所传的“降权蜘蛛”就可能存在。不过并不是因为这个Spider的到来使得网站降权或者屏蔽,而是因为该网站已经被百度降权或者屏蔽,百度服务器才会把对该站点的抓取任务分发给这个Spider。如果百度使用这种分布式的Spicier,那么网络上对百度Spider各IP段特性的总结也是比较有意义的,不过不可全信,因为百度不可能只使用一种任务分发模式。这也可以成为站长和SEO人员的研究方向,即使可能最终一无所获。因为搜索引擎对网站和网页的分类有太多纬度了,新抓取和再次抓取所使用的纬度就可能不同,很可能各个纬度都是综合使用的。

      如图所示为某网友对百度Spider所使用的IP的分析,有兴趣的朋友可以百度搜索一下“百度蜘蛛IP段详解”,有不少类似的总结,看看就好,不可以绝对当真。

SEOER对百度Spider的分析
SEOER对百度Spider的分析

联系鹤翔网络
分布式Spider和“降权蜘蛛” https://www.24gx.cn/New-1192.html
返回到:seo密码 下一篇:网站关键词优化是一项与时俱进的工作
建站百科
更多>>
盐城网站制作公司谈:高转化的产品页设计 2025-9-22
抛开"做一个网站多少钱",先理清需求与功能! 2025-9-19
盐城网站改版升级千万别乱动这几点!网站改版避坑指南 2025-9-19
外贸公司网站做好这7项工作,订单想不增长都难 2025-9-17
抛丸机厂家网站网站排名做上来的七大关键步骤 2025-9-17
盐城网站建设公司谈定制网站的重要性 2025-9-15
阿里云虚拟主机MIME配置教程 2025-9-15
WebP图片:让网站速度快人一步 2025-9-14
产品选型功能,企业网站转化利器! 2025-9-11
竞品体验分析:好网站设计的第一步! 2025-9-11
网站制作收定金,原来是为了对你负责! 2025-9-11
盐城企业找网站制作公司,应该怎么选? 2025-9-6
 
SEO密码 更多>>
如何让你的企业网站内容出现在DeepseeK的答案中 2025-9-22
盐城企业网站关键词排名提升|公司简介SEO优化 2025-9-19
盐城网站优化|关键词策划+网站诊断+内容创作指南一站式解决 2025-9-18
网站SEO优化中常被忽视的页脚设计 2025-9-18
盐城有没有一家能提供专业网站内容建设的公司? 2025-9-12
为什么企业网站必须设置资讯栏目? 2025-9-12
长尾词库:企业网络营销的隐形金矿 2025-9-6
关键词的分析与策划对于网站关键词排名有多重要? 2025-9-6
盐城网站建设公司为你解读JSON-LD主要文章类标注 2025-9-4
JSON-LD实体身份类标注解读 2025-9-3
JSON-LD有哪些核心内容类标注? 2025-9-2
JSON-LD是什么?盐城网站建设公司为你解读 2025-9-2

电话:18962085379 地址:盐城市盐南高新区新龙广场10号楼 网站地图 本站总访问量:
版权所有@盐城鹤翔网络技术有限公司是一家专业做网站的公司,承接网站建设,网站制作,网页设计及网站优化(seo),欢迎来电咨询!
苏公网安备 32090202000679号 版权所有 2008-2028 苏ICP备10220343号-5

189-6208-5379