1

Что такое robots.txt?

robots.txt — файл ограничения доступа к содержимому роботам на http-сервере. Файл должен находиться в корне сайта (то есть иметь путь относительно имени сайта /robots.txt). При наличии нескольких субдоменов файл должен располагаться в корневом каталоге каждого из них. Данный файл дополняет стандарт Sitemaps, который служит прямо противоположной цели: облегчать роботам доступ к содержимому.
[right]Wikipedia[/right]

Основные записи для файла robots.txt
User-agent — устанавливает определение поисковой системы. Если определение распространяется на все поисковые системы, для записи используется значение * (звездочка).
Disallow — запрещает для индексации конкретные файлы и/или каталоги.
Allow — противоположная записи Disallow, то есть разрешает для индексации.

Как полностью скрыть свой от поисковых систем?
Чтобы скрыть свой сайт от индексации популярных поисковых систем в интернете, в содержимом файла robots.txt достаточно прописать всего две строчки:

User-agent: *
Disallow: /

Как скрыть свой сайт от определенной поисковой системы?
Чтобы скрыть свой сайт от конкретной поисковой системы, например от Яндекс, для записи UserAgent задаем название той поисковой системы, от которой желаем скрыть свой сайт:

User-agent: Yandex
Disallow: /

Как скрыть от индексации конкретный каталог сайта?
Чтобы скрыть от индексации определенный каталог (папку), для этого прописываем имя скрываемой папки в записи Disallow. Помимо, скрытия самого каталога, так же будет скрыто от индексации всё его содержимое.

User-agent: *
Disallow: /folder/

Как скрыть определенный файл от индексации?
Чтобы скрыть от индексации конкретный файл, для этого прописываем имя и расширение скрываемого файла в записи Disallow.

User-agent: *
Disallow: /myfile.html

Как скрыть определенный файл в каталоге?
Чтобы скрыть от индексации определенный файл, находящийся в каталоге, для этого прописываем относительный путь к скрываемому файлу в записи Disallow.

User-agent: *
Disallow: /folder/myfile.html

Как открыть файл для индексации в скрытом от индексации каталоге?
Чтобы открыть определенный файл для индексации в скрытом от индексации каталоге, для этого прописываем имя папки в записи Disallow и относительный путь к открываемому для индексации файлу в записи Аllow.

User-agent: *
Disallow: /folder/
Аllow: /folder/myfile.html

Как скрыть несколько каталогов от индексации?
Для каждой новой папки или файла прописываем соответствующую запись с новой строки.

User-agent: *
Disallow: /admin/
Disallow: /uploads/
Allow: /uploads/img/
Disallow: /images/myphoto.jpg

Аналогичным образом открываем определенные каталоги и файлы для индексации в поисковых системах.

Какие существуют роботы поисковых систем?
Googlebot — основной робот-индексатор Google;
Yandex — основной робот-индексатор Яндекс;
Slurp — Yahoo!
MSNBot — MSN (Bing);
ia_archiver — робот рейтинга Alexa (мы ему обязаны попаданием в web.archive.org).

Помимо основных роботов-индексаторов от Google и Яндекс, так же существуют специализированные роботы-индексаторы, например, для индексации картинок, фавиконок и прочих сервисов, связанных с индексацией сайтов.