592DJ音乐网以推荐好听的DJ舞曲为主,收录的DJ舞曲高音质为主,每首DJ音乐都由dj精心打造,免费下载好听的DJ舞曲,感受全球的dj文化,592DJ网站是您的首选。
一位读者在蜘蛛抓取配额是什么这篇帖子留言:
不对呀,这个index标签,是指告诉蜘蛛可以抓取该页面,那么noindex不就是不允许抓取该页面吗?!那么为什么文章最后的几个说明里有“noindex标签不能节省抓取份额。搜索引擎要知道页面上有noindex标签,就得先抓取这个页面,所以并不节省抓取份额。”
留言说明,这位读者并没有太明白什么是抓取,什么是索引,index和noindex标签的意义又是什么。noindex标签不是不允许抓取该页面,是不允许索引该页面,这两者是不同的意思,有不同的功能。
看SEO有关博客和论坛时能感觉到,很多SEO并没有理解爬行、抓取、索引、收录这些概念到底指的是什么,区别在哪,noindex、nofollow、robots文件的功能又是什么。对这些概念没有精准理解,处理大型网站结构,决定什么页面需要被抓取,什么需要被索引,哪些页面需要禁止抓取、索引等等情况时,就很难明白该怎么做。甚至就像抓取配额那篇帖子的很多留言说的,提到这些情况的处理时,根本看不懂在说什么。
这么基本、重要,又比较容易混淆的SEO概念,我以为以前在博客里写过了,看了留言,翻翻以前帖子才知道,原来以前没写过。SEO实战密码书里是有写的,但SEO每天一贴里并没有写过。今天补上。
爬行是什么?
爬行指的是搜索引擎蜘蛛从已知页面上解析出链接指向的URL,然后沿着链接发现新页面(也就是链接指向的URL)的过程。当然,蜘蛛并不是发现新URL马上就爬过去抓取新页面,而是把发现的URL存放到待抓地址库中,蜘蛛按照一定顺序从地址库中提取要抓取的URL。
抓取是什么?
抓取是搜索引擎蜘蛛从待抓地址库中提取要抓的URL,访问这个URL,把读取的HTML代码存入数据库。蜘蛛的抓取就是像浏览器一样打开这个页面,和用户浏览器访问一样,也会在服务器原始日志中留下记录。