话题:搜索引擎如何判断网站更新?
2010-6-6 2:6:44 由猫哥发布 高论:42 浏览: 引用:0网站的更新频率对搜索引擎的影响很大,搜索引擎是如何判断网站已经更新了呢?如果我们知道了它们的判断方法,那么我们设计和维护网站的时候也话就可以对症下药,事半功倍了。
seowhy论坛上有一篇贴子专门提到了这个问题,认为http返回值是引擎判断网站更新的主要因素。
HTTP返回值大全(引自微软帮助和支持)
1xx - 信息提示
这些状态代码表示临时的响应。客户端在收到常规响应之前,应准备接收一个或多个 1xx 响应。
100 - 继续。
101 - 切换协议。
2xx - 成功
这类状态代码表明服务器成功地接受了客户端请求。
200 - 确定。客户端请求已成功。
201 - 已创建。
202 - 已接受。
203 - 非权威性信息。
204 - 无内容。
205 - 重置内容。
206 - 部分内容。
207 - 多状态 (WebDAV)。
3xx - 重定向
客户端浏览器必须采取更多操作来实现请求。例如,浏览器可能不得不请求服务器上的不同的页面,或通过代理服务器重复该请求。
301 - 已永久移动
302 - 对象已移动。
304 - 未修改。
307 - 临时重定向。
4xx - 客户端错误
发生错误,客户端似乎有问题。例如,客户端请求不存在的页面,客户端未提供有效的身份验证信息。
400 - 错误的请求。
401 - 访问被拒绝。IIS 定义了几个不同的 401 错误,用于指示更为具体的错误原因。这些具体的错误代码在浏览器中显示,但不在 IIS 日志中显示:
401.1 - 登录失败。
401.2 - 服务器配置导致登录失败。
401.3 - 由于 ACL 对资源的限制而未获得授权。
401.4 - 筛选器授权失败。
401.5 - ISAPI/CGI 应用程序授权失败。
401.7 – 由 Web 服务器上的 URL 验证策略拒绝访问。这个错误代码为 IIS 6.0 所专用。
403 - 禁止访问:IIS 定义了几个不同的 403 错误,用于指示更为具体的错误原因:
403.1 - 执行访问被禁止。
403.2 - 读访问被禁止。
403.3 - 写访问被禁止。
403.4 - 要求 SSL。
403.5 - 要求 SSL 128。
403.6 - IP 地址被拒绝。
403.7 - 要求客户端证书。
403.8 - 站点访问被拒绝。
403.9 - 用户数过多。
403.10 - 配置无效。
403.11 - 密码更改。
403.12 - 拒绝访问映射表。
403.13 - 客户端证书被吊销。
403.14 - 拒绝目录列表。
403.15 - 超出客户端访问许可。
403.16 - 客户端证书不受信任或无效。
403.17 - 客户端证书已过期或尚未生效。
403.18 - 在当前的应用程序池中不能执行所请求的 URL。这个错误代码为 IIS 6.0 所专用。
403.19 - 不能为这个应用程序池中的客户端执行 CGI。这个错误代码为 IIS 6.0 所专用。
403.20 - Passport 登录失败。这个错误代码为 IIS 6.0 所专用。
404 - 未找到。
404.0 -(无) – 没有找到文件或目录。
404.1 - 无法通过请求的端口访问网站。
404.2 - Web 服务扩展锁定策略阻止本请求。
404.3 - MIME 映射策略阻止了此请求。
405 - 用来访问本页面的 HTTP 谓词不被允许(方法不被允许)
406 - 客户端浏览器不接受所请求页面的 MIME 类型。
407 - 要求进行代理身份验证。
412 - 前提条件失败。
413 – 请求实体太大。
414 - 请求 URI 太长。
415 – 不支持的媒体类型。
416 – 无法满足请求的范围。
417 – 执行失败。
423 – 锁定的错误。
又是根据哪个返回值判断的呢?
还是有其他的判断标准?
欢迎发表看法。
-
不错 很详细 学习了。回复该留言
-
恩,这些东西还真得了解了解啊。
-
猫哥!我以为就我睡的晚呢!还有你这个夜猫子啊!布丁来了!
-
似乎有个 status 是标示已修改的?
-
最近老写点SEO方面的东西吗?看也看不懂
-
这个到是没考虑过哦。
-
没看懂,所以没看法就是最好的看法!
-
百度的sitemap不太好做,谷歌就容易了
-
蜘蛛的思维就是复杂 - -
-
我以为文章上提出的http状态对判断一个页面是否有更新意义不大,这些状态最主要还是网站管理员/开发人员维护网站用吧。
判断页面的内容是否修改了,还是得看内容本身。比如对一个页面内容进行hashcode计算得到一个值,修改了页面内容再进行hashcode,得到的值是会不一样的。当然,google、baidu的算法肯定会复杂、高效很多很多了,毕竟那是人家的核心技术、机密技术,外行人也不好窜测了
-
最近百度不天天更新了
-
感觉最近几个搜索引擎都变幻无常!
-
不错,说的很细致,还给出了错误代码号,赞
-
学习了~~
-
学习了~·
-
剖析的比较深刻奥
-
看不明白~不懂。
-
写的太专业了,具体我们要怎么做?
-
了解一下 顺带点广告~
-
真复杂。机器也只能按人定的规矩办事儿了。
-
还有这么多讲究啊,只要蜘蛛乖点就好,哈~
-
看不懂哦!!
-
难道只是通过HTTP返回值来确定吗?
-
我觉得第一个应该是从sitemap,第二个则是与数据库进行对比。比较肤浅的想法……
-
百度的蜘蛛似乎布网密而严,谷歌的蜘蛛先松网再收袋!
上文说的很细致,学习了。继续加油吧!
链接做个吧,猫哥链接已做。
-
貌似没什么意义?
-
没看懂

-
404,看见就烦
-
扫盲了。。。
-
猫哥啊···扫盲啦··
-
学习下。。。没看懂
-
呵呵,学习了~
-
这个,不懂。。。

-
写好文章,就等爬虫机器人来
-
我看到日志都是8000
-
还真没研究过这些
-
写得这么好?
-
这个话题有意思,还真没有认真研究过
-
像类似一些随机板块或者其他的一些脚本程序控制更新的只是为了养蜘蛛,但是重要的还是需要更新文章。
-
判断更新标准:http返回值(包括2XX,3XX。),网站结构变化(指代码部分),去除代码的文字内容(将进行分词比较)。在状态正常时,后两者决定网页快照更新。
-
状态码肯定是第一个判断点,是否更新肯定是分词运算出来的,HASH没什么用,很多稍带一点动态信息,HASH结果就不同,还是要去分词
-
感觉很高深
先看下有些什么呢
