你不知道的百度蜘蛛爬行的原理

你不知道的百度蜘蛛爬行的原理

搜索引擎对于我们来说是一种很复杂,很神秘的东西,对于我们来说非常神秘,我们本身也不是蜘蛛,也不是开发人,也不是搜索引擎,我们只能说是探讨一下,简单了解一下蜘蛛排行的原理。此文仅仅准备刚准备做seo的新手们分享的,如果高手觉得那里解释不对的欢迎指点一下我。

蜘蛛爬行字面上的意思,是不是有点类似于真正的蜘蛛在蜘蛛网上爬行,当蜘蛛看到食物的时候就会顺着自己织的网爬过去,食物就相当于我们的链接,也就是比如百度蜘蛛找到一个链接,就会顺着这个链接爬行到一个页面,然后再顺着这个页面看看还有没有别的东西,如果还有就顺着这个链接一直抓下去。抓完之后就会把自己抓回来的东西,放到一个地方。

搜索引擎是有一个库存的,蜘蛛是从搜索引擎的服务器出发,顺着搜索引擎已有的网址去爬行,并将网页内容抓取回来。当蜘蛛把页面采集回来之后,搜索引擎就会对抓回来的页面进行分析,它会先将内容和链接分开,内容暂时先不说。分析出来链接之后,搜索引擎并不会马上去派蜘蛛进行抓取,而是把链接和锚文本记录下来交给网址索引库进行分析、对比和计算,最后放入网址索引库。进入了网址索引库之后,才会有蜘蛛去抓取。也就是说如果你的网站中出现了404页面,或者是禁止抓取的地方,比如robots.txt,nofollow ,当蜘蛛抓取到这个页面的时候,它知道没东西吃,下次就不会抓取了。

相关新闻

联系我们

130-4081-2319

在线咨询:点击这里给我发消息

邮件:246758693@qq.com

工作时间:周一至周五,9:30-18:30,节假日休息

QR code