Korea Database

Posted: **Wed Jan 22, 2025 9:34 am**

“存档robots.txt 是位于网站根部的文件，指示您不希望搜索引擎爬虫访问哪些部分。该文件使用机器人排除标准，这是一个带有一小组命令的协议，可用于按部分和特定类型的网络爬虫（例如移动爬虫或桌面爬虫）指示网站访问。

robots.txt 的操作比看起来更简单。我们需要知道的第一件事是 robots.txt 文件的用途以及它能够索引或不能够索引我们网站的哪些元素。

此外，robots.txt 的运行受到限制，并且还有其他系统可以在网络上找到我们的网址。

网页上 Robots.txt 文件的站点地图。
robots.txt 及其文件在网页上的操作的站点地图。
请记住，robots.txt 中的说明仅是指示性的，并不首席财务官电子邮件列表具有决定性。例如，名为 Googlebots 的 Google 机器人确实遵守 robots.txt 文件的命令，但其他搜索引擎（Yandex、Alltheweb、ASK 或 Altavista）则不必这样做。

例如，Google 不会对我们使用 robots.txt 阻止的页面内容中的任何类型的信息进行抓取或编制索引，但是，它将对其他元素或网页中的所有地址或 URL 进行索引，即使它们被限制在以下范围内：因此，一个重要的提示是，如果您的网站将包含敏感信息但您不想共享它，那么最好不要创建它。

Korea Database

robots.txt 文件的工作原理

robots.txt 文件的工作原理