Воскресенье, 18.08.2019, 04:11

Составление файла robots.txt - Все статьи сайта - Каталог статей софт антивирусы драйвера

Приветствую Вас Гость

 
Товары и услуги
Поиск
скачать бесплатно avk 3.2.7 avk-3? сметные программы комплекс авк 3.2.7 авк-3 avk-3 nod NOD32 ofline on-line online антивирус нод 32 обновить bluetooth ms-6837d MSI Msi 163b realtek rts5158 авто avto daimler mercedes benz автокар автомобиль даймлер мерседес мерседес бенц 69 вездеход газ газ-69 Библиотека Смотреть Онлайн кинотеатр мультики онлайн Ну погоди без регистрации Винни мульт мультики на русском детские мультфильмы му мультипликационные фильмы мультфильмы онлайн RU интернет кириллический домен Edge GPRS GSM HSDPA htc LG UMTS WCDMA GPS-логгер гаджеты Cd DVD компьтер AMD амд ноутбук USB жесткий диск Microsoft Windows windows mobile 6.5 гаджет N 95 N98 наладонный телефон MARRO PC palette компьютер PC mini PC Ripple LOOK мобильник need ноут Cyber cyberpower Power гейм мобильный телефон mobile новая нокиа мобильное устройство t-horizon мобильный концепт мобила смартфон duofone дизайнер iPhone 3G iPhone 3GS Novothink Solar Surge case Boombox Freeview DVD проигрыватель Rubber Bandit Pen необычная ручка интересное устройство молоток девайс необычное устройство овременный конструктор принтер мобильный принтер USB gaget usb гаджет для ноутбука изобретение Monitor usb 3.0 монитор новый стандарт victorinox видео olympus Olympus LS-20M аудио диктофон iso ultra UltraISO запись двд запись сд образ диска авк-5 авк5 2.8.0 дбн драйвер набор драйверов Font fonts Printers бесплатно латынь игра приставка psp PSP игруха Антишпион анти фишинг антивирус защита компьютера электронные книги Бунт восстания всемирная история история Медицина лекарство Aston aston2 menu єлектронная книга Анатомия атлас opera mini Opera Mini 4.2 для телефона Opera Mini tm 4_2 для Nokia программа скачать K-Lite Codec Pack 4.95 Full виндоус к лайт кодек клайт кодек драйвер скачать бесплатно hp lasejet 1018 без смс скачать бесплатно скачать драйвер драйвер hp lasejet 1018 скачать бес windows vista portable виста 2009 скачать бесплатно актриса дашасагалова фото голая сагалова голая света букина играть Игры 1.6 all cs Counter Strike cs final release reles final контер страйк nokia download driver nokia nokia pc suite rus дравер драйвер телефона canon lbp 1120 lbp1120 драйвер принтера canon дрова Софт Графика изображение база данных деньги домашняя бухгалтерия доходы электронная книга все кодексы рф гражданский кодекс Driver HP HP LaserJet 3050 HP LaserJet 3052 HP LaserJet 3055 HP LaserJet 3390 HP LaserJet 3392 1997 2002 corola corolla korola Toyota toyota corolla бестселлер билия фотографии игра света djvu browser djvu reader адаптер аккомулятор аккумулятор батарея видео пособие мульт сериал советские мультфильмы мультфильмы для детей детские мультики скачать бесплатно скачать русские мультфильмы советские мультики возвращение попугая мультики про животных мультфильмы на русском бесплатно без регистрации Гагарин мультики для детей мультфильм скачать детские мультики крокодил Гена мультик для детей
Друзья сайта
Статистика
Меню сайта
Категории каталога
Все статьи сайта [42]
Все опубликованные статьи
Сетевые подключения [7]
Подключение, настройка, улучшение работы сетевых схем
Windows [87]
Ускорение, оптимизация, устранение багов ос windows (кроме Vista)
Хитрости и нежданчики [9]
Неожиданные находки в операционке, железе, периферии
Разное [67]
Интересные статьи, которые могут пригодиться
Безопасность [8]
Безопасность сетей, операционных систем, передачи и приема данных
Windows Vista [5]
Обзор, настройка, обновления и т.д. все только о Windows Vista
Железо [8]
Комплектующие, разгон, советы, поведение девайсов
Мобильные устройства [4]
Сотовые телефоны, ноутбуки, нэтбуки, кпк, Iphone
СЕО [1]
Продвижение, оптимизация и раскрутка интернет проектов
Статьи партнеров [2]
Статьи на различные темы
Наш опрос
Какие журналы компьютерного направления Вы читаете?
Всего ответов: 709

службы мониторинга серверов
ProtoPlex: программы, форум, рейтинг, рефераты, рассылки!
Free Page Rank Tool
Google Pagerank, SEO tools
Главная » Статьи » Все статьи сайта

Составление файла robots.txt
 
 
 
 
 

Составление файла robots.txt

Как известно, файл robots.txt используется для запрета индексации части или всего сайта всевозможными роботами. Правильное составление этого файла позволит избежать индексации документов, для индексации не предназначенных.

Формат файла robots.txt

robots.txt — простой текстовый файл1, который должен находиться в корневой директории сервера. Имя файла должно быть в нижнем регистре (ROBOTS.TXT, Robots.txt — неправильно).
В файле содержатся записи, отделяемые одной или несколькими пустыми строками (разделяемыми CR, CRNL, NL или \r, \r\n, \n). Каждая запись, в свою очередь, состоит из строк следующего вида:
имя_поля:[необязательные пробелы]значение[необязательные пробелы]
Поле является нечувствительным к регистру (case insensitive).
Каждая запись начинается одной или несколькими строками, где имя_поля=User-agent, после чего следует одна или несколько строк, где имя_поля=Disallow, имена полей, которые отличаются от двух указанных, игнорируются2.
Знак «#» означает, что пробелы перед ним и все символы до конца строки являются комментарием. Строки, содержащие только комментарий, игнорируются и не могут использоваться для разделения записей.
 
User-agent

• Значением этого поля является имя робота, к которому применяются правила иключений;
• Если строк с User-agent несколько, то для всех роботов применяются одинаковые правила, которые содержаться в текущей записи;
• Если значение поля равно «*», то правила применяются к любому роботу, для которого нет отдельной записи. В файле robots.txt может быть только одна запись с User-agent: *.
Disallow
• В записи должно быть хотя бы одно поле Disallow;
• в поле Disallow указывается частичный или полный путь (URL), который не будет посещен;
• пустое значение (Disallow: ) интерпретируется как разрешение на посещение любой страницы;
• регулярные выражения и символы подстановки запрещены.
 
Практика

В процессе обработки сайта роботы имеют массив ссылок для посещения и набор правил исключения из файла robots.txt. Для каждой ссылки выделяется путь (http://www.site.com/path/to/file.html), после чего к этому пути применяются по очереди правила исключения. Пусть в файле есть строка Disallow: /path/to, она сравнивается с соответствующей подстрокой ссылки:
http://www.site.com/path/to/file1.html — посещение запрещено;
http://www.site.com/path/to/file2.html — посещение запрещено;
http://www.site.com/path/file3.html — посещение разрешено.
Чтобы запретить роботу посещение динамических страниц, можно использовать частичный путь. Например, чтобы запретить посещение страниц для печати вида http://www.site.com/index.php?action=print&id=1, но разрешить посещение страниц вида http://www.site.com/index.php?action=view&id=1, необходимо в robots.txt написать следующее:
Disallow: /index.php?action=print
Однако следует учитывать порядок параметров в ссылке. Так, следующие страницы робот посетит:
http://www.site.com/index.php?id=1&action=print
http://www.site.com/?action=print&id=1
Пример файла robots.txt
User-agent: *
Disallow: /news
# запретить всем роботам индексировать ссылки,
#которые начинаются с /news
 
User-agent: StackRambler
User-agent: Aport
Disallow: /eng
Disallow: /news
#Рамблеру и Апорту запретить индексацию ссылок,
#которые начинаются с /news и /eng
 
User-agent: Yandex
Disallow:
#Яндексу разрешить все.
 
Следует заметить, что файл robots.txt не является панацеей, так как его правила исключения используют только «культурные» роботы, а наряду с ними существует целый список роботов, сервисов и программ, которые не следуют правилам исключения, либо игнорируют существование файла robots.txt на сайте.
Кроме этого в файл исключений не стоит добавлять пути к файлам, о существовании которых не следует знать посторонним людям. Файл robrobots.txt доступен всем, поэтому присутствие там строк, вроде Disallow: /admin, только подзадорит некоторых посетителей к совершению вредоносных действий.
Примечания
1. В некоторых случаях используется динамическое формирование файла robots.txt, для сайтов с зеркалами.
2. Некоторые системы поддерживают дополнительные поля. Яндекс, например, использует поле Host для определения основного зеркала сайта.
3. Некоторые системы разрешают использование регулярных выражений. Так Гугл, который имеет поиск по изображениям, файлам PDF и другим, поддерживает в поле Disallow символы «*» (любая последовательность символов) и «$» (окончание строки ссылки). Это позволяет запретить индексирование определенного типа файлов:
User-agent: Googlebot
Disallow: *.pdf$
#Запрет индексации файлов PDF
По мнению автора это избыточное расширение, так как с тем же успехом можно вынести все документы PDF в отдельный каталог и запретить его индексирование:
User-agent: *
Disallow: /pdf/
 
 

Составление файла robots.txt
Категория: Все статьи сайта | Добавил: grafstar (01.12.2008) | Автор: Владимир ЧЕРНЫШОВ
Просмотров: 2607 | Рейтинг: 0.0/0 |
Еще статьи
Еще скачивают
Всего комментариев: 0
Имя *:
Email *:
Код *: