Google网站管理员【抓取错误】
抓取错误页中提供了有关我们在您的网站上尝试抓取但却无法访问的网址的详细信息。移动抓取错误页中提供了有关我们在您的移动网站上抓取网址时所遇到的问题的详细信息。
要查看抓取错误,请按以下步骤操作:
- 在网站管理员工具主页上,点击您要删除的网站。
- 在诊断下,点击抓取错误。
除了列出我们难以抓取的所有网址外,我们还会列出问题的类型,如果可能的话,我们也会列出出现错误的网页。
可能出现的错误包括:
- 找不到网页
- 无法追踪网址
- 网址受 robots.txt 限制
- 网址超时
- HTTP 错误
- 无法访问网址
1.找不到网页
如果网站出现这种问题,你可以重新制作一下网站地图然后重新提交给Google,也可以不用管它,等到Google提醒几次后,如果还无法抓取,Google就会自己删除掉。不过如果出现这样的情况会导致Google对网站评价降低,次数过多过频的话,会降低Google抓取网站的积极性,Google·爬虫是不想浪费自己宝贵的时间去冒险抓取有可能无法访问的页面的。所以站长们还是要经常检查自己网站的链接,包括内部和外部链接。尽可能的避免上述情形才是王道!
2.无法追踪网址错误
此类内容列出我们无法完全追踪的网址及相关原因。 一般来说,请注意以下内容以确保 Google 的抓取工具可以追踪您网站上的链接:
下面列出了您可能看到的具体的重定向错误:
|
3.网址受 robots. txt 限制
Google 因受 robots.txt 限制而无法抓取此网址。这种情况可能是由多种原因造成的。例如,您的 robots.txt 文件可能完全禁止 Googlebot;可能禁止对此网址所在目录的访问,也可能特别禁止访问此网址。通常,这并不属于错误。您可能专门设置了一个 robots.txt 文件来阻止我们抓取此网址。如果是这种情况,则无需更正;我们将继续遵循此文件的 robots.txt。
如果一个网址重定向到一个被 robots.txt 文件拦截的网址,则第一个网址会报告为被 robots.txt 拦截(即使该网址在 robots.txt 分析工具中列为"允许")。
4.网址超时
我们在尝试访问网页时收到了超时通知。请确保网页可以访问。下面列出了您可能看到的一些错误:
| DNS 查找超时 | 我们收到 DNS 查找超时提示。 |
| URL 超时 | 我们在连接至您的网络服务器时或在请求期间收到了超时提示。 |
| robots.txt 超时 | 服务器在我们访问 robots.txt 文件时超时。在抓取您网站的网页之前,我们尝试检查了您的 robots.txt 文件,以确保我们没有抓取您不希望抓取的网页。不过,我们在尝试访问 robots.txt 文件时收到了超时提示。为了确保我们不会抓取该文件中的任何网页,我们推迟了抓取。在这种情况下,我们会在以后返回您的网站,并在可以访问您的 robots.txt 文件后进行抓取。请注意,这不同于查找 robots.txt 时的 404 错误响应。如果我们收到 404 错误响应,就会认为 robots.txt 文件不存在并继续抓取。 |
5.HTTP 错误
Google 在尝试查看此网址时遇到了错误。 请参阅 RFC 2616 查看有关 HTTP 错误代码的详情。 Google 在尝试查看此网址时遇到了 HTTP 错误。通常而言:
- 请确保此文件位于指定位置。
- 如果我们尝试抓取来自您 Sitemap 的网址,请确保您的 Sitemap 所列网址正确。
- 如果我们尝试抓取来自您网站的某个链接的网址,请确保该链接正确。
- 如果其他网站列出的指向您网站的链接已损坏,我们可以列出此网址,但您可能无法更正这一错误。
- 如果此文件存在,您的服务器在我们试图访问它时可能遇到了错误。
下表列出了您可能会看到的一些错误:
| 404 未找到 | 网络服务器返回了 404 错误(网页未找到)。 此页可能不存在。 |
| HTTP 错误/401/407 身份验证错误 | 此页要求身份验证。 您可能不希望将此网页纳入索引。 如果您的 Sitemap 中列出该网页,您可以将其删除; 但如果您将其保留在您的 Sitemap 中,我们就不会抓取该网页或将其编入索引(尽管该网页将继续保持错误状态在此处列出)。 |
| HTTP 错误/4xx 错误 | 有关这些状态代码的完整列表,请参阅 RFC 2616。 造成这种错误的原因可能是网络服务器无法辨认或处理此请求、此请求被禁止或此请求超时。如果此网页已迁移且对该网页的申请返回状态代码 410,您可以考虑更改回应,以返回状态代码 301,并永久重定向此申请。 |
| HTTP 错误/未找到域名 | 可能未正确解析 DNS。 我们可以与 DNS 服务器通信,但无法找到域名。 |
| HTTP 错误/无法解析 HTTP 响应 | 尝试访问您的网页时,我们无法解析从网络服务器收到的响应。 |
| HTTP 错误/IP 在排除范围中 | 此 IP 地址属于专用地址区,已保留用于局域网(如,127.0.0.1)。 有关专用 IP 范围的详情,请参阅 RFC 1918。 |
| 无标题 - Google 遇到常见 HTTP 错误 | Google 在访问此网页时遇到了常见 HTTP 错误。请注意,该错误的潜在原因可能包括此页面中列出的任何 HTTP 错误。 |
6.无法访问网址
Google 在尝试访问此网址时遇到了错误。例如,我们可能遇到了 DNS 错误或超时。您的服务器在我们尝试访问此网页时可能已关闭或处于忙碌状态。可能的网址无法访问错误有:
| 5xx 错误 | 有关这些状态代码的完整列表,请参阅 RFC 2616。该错误可能是由于服务器内部错误或服务器忙碌错误造成的。如果服务器正忙,就可能会返回过载状态,要求 Googlebot 降低抓取网站的速度。在这种情况下,我们会稍后再次返回,以抓取其他网页。 |
| DNS 问题 | 我们在尝试访问该网页时无法与 DNS 服务器通讯。原因可能是服务器关闭,或者到域的 DNS 路由有问题。请确保您的域可正确解析,然后重试。 |
| robots.txt 文件不可访问 | 在抓取您网站的网页之前,我们已检查了您的 robots.txt 文件,以确保不抓取您不希望我们抓取的网页。但是,您的 robots.txt 文件不可访问。为了确保我们不会抓取该文件中所列的任何网页,我们推迟了抓取。在这种情况下,我们会在以后返回您的网站,并在可以访问您的 robots.txt 文件后进行抓取。请注意,这不同于查找 robots.txt 文件时的 404 错误回应。如果我们收到 404 错误回应,就会认为 robots.txt 文件不存在,这样的话,我们会继续进行抓取。 |
| 网络无法访问 | 我们在尝试访问此网页时遇到了网络错误。 如果 Googlebot 从您的网站中请求文件时遇到超时或其他与网络相关的问题,则会发生此种情况,并且会因此而放弃请求。这可能是由以下一项或多项原因造成的:
|
| 无法连接 | 无法建立连接。 |
| 无响应 | 服务器在我们收到响应前关闭了连接。 |
| 响应遭到截断 | 服务器在我们收到完整响应前关闭了连接,响应内容遭到截断。 |
| 连接遭到拒绝 | 服务器拒绝了连接。 |
| 标头遭到截断 | 服务器在发送完整标头前关闭了连接。 |
- 上一篇:电商要拥有自己的网店平台
- 下一篇:百度竞价6.30算法升级-“高级短语”
- 相关标签:Google网站管理员
- 引用通告:点击这里获取该日志的TrackBack引用地址
- 相关文章:
◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。