你可以使用robots.txt来减少你的网站被列出,但这取决于网络爬虫的“善意”,一些垃圾邮件机器人会明确查看你不允许的位置。然而,唯一安全可靠的方法是不将其放在互联网上。简单地不链接到您的网站并不能奏效。网络爬虫从许多来源获取信息,包括浏览器引用和域名注册者。因此,为了“隐形”,您必须不访问您的网站,不注册域名(只通过IP地址访问)。如果您基于IP地址运行Web服务器,则仍然有所有垃圾邮件机器人探索随机地址。虽然需要一段时间,但他们会找到你。对网站进行密码保护应该有效,使其无法访问。尽管(我无法理解如何发生这种情况),例如Google中列出了数千篇ACM论文,您无法在没有帐户和登录的情况下查看它们。但它们确实存在。
使用robots.txt文件,拒绝所有搜索引擎。但不是所有的搜索引擎都会遵守robots.txt规则,因此请定期检查服务器日志,并拒绝可疑机器人/爬虫的范围: http://httpd.apache.org/docs/2.2/howto/access.html