17370845950

新闻动态

如何正确设置robots.txt以优化搜索引擎排名？,新疆视频网站优化哪家好

网站爬虫访问控制的基本指南

嘿嘿，小朋友，你们知道什么是爬虫吗？就是那些在网上爬来爬去的，把网站内容doukan个遍的小东西。我们要教你们怎么让这些小东西按照我们的意愿去爬网站，这样我们的网站就Neng在搜索引擎上排名geng靠前哦！

就是那个让爬虫听我们话的文件啦！我们把它放在网站的根目录下就像是给爬虫们发了一个地图，告诉它们哪些地方可yi去，哪些地方不Neng去。

指令“Allow”就是告诉爬虫：“嘿，这里可yi来！”

指令“Disallow”就是告诉爬虫：“哎呀，这里别来！”

指令	作用
Allow	允许爬虫访问指定路径
Disallow	禁止爬虫访问指定路径

这个“User-agent”就像是给不同爬虫起的名字，我们可yi告诉特定的爬虫：“你只Neng去这里！”huo者“你哪儿dou不Neng去！”。

你猜怎么着？虽然我们用robots.txt文件告诉爬虫们规矩，但不是suo有的爬虫dou会听话哦。suo以我们还要用其他方法来保护我们的网站。

而且，记得我们写的规则要简单明了不要写得太复杂，否则爬虫们可Nengkan不懂哦。

如guo网站的其他部分dou希望让爬虫访问，我们可yi这样写：，改进一下。

User-agent: *

Allow: /

如guo我们要把“private”这个目录保护起来不让爬虫进，就写：，太坑了。

Disallow: /private/

如guo我们只针对Googlebot这个爬虫，不让它访问“temp”目录，就写：

User-agent: Googlebot

Disallow: /temp/

好啦，小朋友，今天我们学会了怎么设置robots.txt文件，让爬虫们按照我们的意愿来爬网站。这样，我们的网站就Neng在搜索引擎上排名geng高啦！不过记得要经常检查和geng新我们的robots.txt文件哦，主要原因是网站的内容总是会有变化的。