File - Функции и приложения

Robots.txt - файл, който да ограничи достъпа до сайта на търсачката роботи съдържание намира в HTTP сървър. файла robots.txt трябва да се намира в главната директория на сайта (т.е. да има относително име път на сайта:







Ако имате няколко поддомейна, файла robots.txt, трябва да се намира в главната директория на всеки. Този файл допълва Sitemaps стандарт. което е точно обратната цел: да се улесни достъпа до роботите съдържание.

Файлът robots.txt се използва за контрол частичното индексиране на сайта от търсачките. Този файл се състои от набор от инструкции за роботи за търсене, с която можете да зададете на файлове или директории сайт страница, която да не се индексира. Файлът robots.txt може да се използва за определяне на местоположението на файла и може да покаже, че е необходимо, на първо място, на робота да индексира.

В допълнение, ако съхранявате поверителни или чувствителни данни, които не са предназначени за любопитни очи, вие също биха предпочели, че търсачките не я индексират тези страници. Въпреки че, в този случай, по правилния начин да се запишете на индексиране поверителни данни - е да ги държи в локална папка на вашия компютър или да се защитят достъп с парола.

По-долу ще намерите схематична илюстрация на това как обектите да изглеждат като файла robots.txt, и без него.

Какво takoerobots.txt?

Robots.txt - Това е текст (не е HTML) файл, който се поставя на сайта, за да съобщите да търсене кои страници те не трябва да посетите. robots.txt инструкции файлове не са необходими за търсачките, но, като цяло, търсачките са обект на факта, че уебмастера е помолен да направи. Важно е да се уточни, че файла robots.txt не е начин да се предотврати обходим сайта търсачката.

Фактът, че сте поставили файла robots.txt. подобна на тази, за да се мотае една бележка: "Моля, не въвеждайте" на отключена врата, например, че не може да попречи на крадците да влязат в него и нормални хора, след като е прочел бележката, няма да се опитат да влязат защо се казва, че. ако важна информация всъщност е достъпно на уебсайта си, че е твърде наивно да се разчита на това robots.txt го предпазите от индексиране и показване в резултатите от търсенето.

Поставянето faylarobots.txt

По този начин, ако не поставите файла robots.txt с инструкции в правилното място, не се учудвайте, че търсачките ще индексира целия сайт, включително и факта, че не искате да направи публично достояние.

Sozdanierobots.txt

Препоръки от Google за използването на файла robots.txt







Най-простият файл robots.txt използва две правила.

Тези две линии се считат за един запис в този файл. Можете да включите и много записи, всеки от които може да съдържат няколко Забрана линии и чрез потребителския агент.

User-Agent: Googlebot
Disallow: / katalog2 /

В този пример, в адреса е забранено само за верижен Googlebot. включени в / katalog2 /.

Потребителски агенти на потребителски агент и други роботи

Потребителят-агент - е специфичен робот търсачката. Базата данни за мрежови роботи изброява много общи ботове. Можете да зададете запис, приложим към конкретна робот (като името му) или да се уточни, че тя трябва да се прилага за всички роботи (чрез звездичка). Записът, който се прилага за всички роботи изглежда така:

Google използва няколко различни робота (User-Agent). Роботът се използва за търсене в интернет, наречен Googlebot. Останалите им роботи, като Googlebot-Mobile и Googlebot-изображение. следват правилата, които задавате за Googlebot. но за тях, можете да посочвате отделни правила.

Блокирането на робот User-Agent

Линията Disallow изброява страниците, които искате да блокирате. Можете да укажете даден URL или модел. Записът трябва да започва с наклонена черта (/).

За да блокирате целия сайт, използвайте наклонена черта.

За да блокирате страница, страницата.

За да премахнете конкретно изображение от Google Изображения, добавете следните редове:

User-Agent: Googlebot-изображението
Забрани: /kartinki/sobaki.jpg

За да премахнете всички снимки на вашия сайт от Google Изображения, добавете следните редове:

User-Agent: Googlebot-изображението
Disallow: /

За да заключите всички файлове от определен тип (например, GIF), използвайте следния текст:

User-Agent: Googlebot
Забрани: /*.gif$

User-Agent: медийни партньори на Google
Позволете: /

Не забравяйте, че команди буквите е от значение. Например,

Googlebot поддържа подаване на Карта на файлове чрез файла robots.txt.

модел за съвпадение

Googlebot (но не всички търсачки) ще разпознае и някои примерни съчетания.

За отбелязване на поредица от символи, използвайте звездичка (*). Например, за да блокира достъпа до всички поддиректории, които започват с частни. добавете следните редове:

User-Agent: Googlebot
Disallow: / lichnoe * /

User-Agent: Googlebot
Забрани: /*.xls$

  • Disallow: / *? - Блокове достъп до цялата URL адреса с въпросителен знак (т.е. всеки URL, който започва с името на домейна, последвано от низ, последван от въпросителен знак е намерен);
  • Позволете :? / * $ - позволява достъп до всички от URL адреса, завършва с въпросителен знак (т.е. за всички URL, който започва с името на домейна, следван от низ, който завършва в след което няма други знаци.).

Практически съвети от GOOGLE

Използвайте надеждни методи за ограничаване на достъпа до поверителна информация. Не разчитайте на robots.txt при блокиране на поверителна или чувствителна информация. На първо място, търсачките да поставят линк към вашия блокиран без да посочва заглавието или откъси на страницата, ако някъде в мрежата има връзки с материала (напр журналния файл). На второ място, двигатели за специално търсене или търсачки, които не поддържат стандарти за достъп за роботи могат да пренебрегнат указанията на robots.txt.

  • да позволи индексирането на страниците за търсене и други подобни;
  • Потребителите не обичат една търсенето страници се местят в друга с малко полезна информация;
  • да позволи индексирането на страници, генерирани от прокси сървър.

Абонирайте се за нашия бюлетин и винаги ще бъде наясно с това, което се случва.

Това е лесно, удобно и безплатно!