Post_18Привіт всім відвідувачам Zura-Blog, сьогодні до увашої уваги ще один метод просування веб сайту, це створення файлу  robots.txt.

Web robots ( також відомий як Web Wanders Crawiers або Spiders) являються програмами автоматичної навігації по сайту,  такі програми використовують пошукові системи.

Як працють  програми–роботи, вони працють таким чином, програма сама рухається через веб сайт, і складається враження що програма працює похоже як “вірус”, робот відвідує веб сайти, читаючи їх документи.

Пошукові системи, такі як Google наприклад  використовують цих роботів, щоб проіндексувати вміст різних сайтів. Всі пошукові роботи коли заходять на сайт, в першу чергу шукають файл robots.txt.

Тому знати призначення, і синтаксис robots.txt, для веб майстрів дуже важливо. Файл robots.txt це текстовий файл, який розміщують в головній папці сайту (в коренвому каталозі сайту), і там записані спеціальні інструкції для пошукових роботів.

Ці інструкції можуть забороняти індексувати деякі сторінки сайту. Як створити такий файл, дуже просто, потрібний звичайний текстовий редактор, навть підійде “Блокнот”. Якщо ви не збираєтесь вказувати ніякі інструкції в файлі, наприклад заборону вуідвідувати деякі  сторінки, тоді  файл можна зробити пустим.

Тут головне  дати правильну назву назву файлу з закінченням “s”, “robots.txt” а не “robot.txt”, “txt”— означає текстовий файл. В любому випадку, перед тим як реєструвати сайт в пошукових системах потрібно створити такий файл, (звичайний текстовий файл) в папці свого сайту.

“Робот” — це програма яка автоматично проходить гіпертекстову структуру мережі, поки не знаходить потрібний документ, а потім шукає всі рекурсії документів перечислених в цьому документі.

 

Рекурсія — процес повторення чогось небудь самоподібним способом.

Кожен робот використовує різні стратегії. В основному вони починаються зі списку URL, створення історій, особливо з документів з великою кількостью посилань. Якщо робот найшов такий документ, він приймає рішення чи занести його в свою базу даних.

Стиль просування залежить від робота, деякі роботи індексують HTML—заголовки або перші декілька параграфів, або обробляють HTML— код повністю і індексують всі слова, зваживши все, в залежності від складу HTML.

Інші обробляють мета ярлики, або інші спеціально сховані ярлики. Ось чому дуже важлива наявність цих ярликів.

Реєстрація веб сторінок роботом залежить від сервера, який керує веб сайтом. Більшість служб, пропонують посилання в формі подібне URL на своїх сторінках пошуку. В основному існує декілька типів, наприклад “Add Url” “Suggest a Site” “Add Your Page” і т.д.

Існують і служби автоматичної реєстрації, деякі з них безкоштовні, інші платні. Одна із платних служб — Website Submitter, яка містить як українські так і інтернаціональні директорії.

 

Website Submitter — інструмент для веб майстрів, призначений для наполовину автоматичної публікації вашого сайту в більш чим 3500 каталогах, і в 600 архівах статей, що дозволить підвищити рейтинг вашого сайту в пошукових системах.

Веб майстри використовують файли robots.txt щоб надати інструкції роботам для свого сайту, цей процес називається “The Robots Exclusion Protocol”.

Самий швидкий спосіб уникнути відвідування сайту роботами, це введення двух ключових слів рядків в файл robots.txt на вашому сервері (являється спеціальним елементом і має назву wildcard).

User–agent:*

Disallow:/

Файл robots.txt являється текстом з одним або з багатьма архівами. Як правило містить один запис, який виглядає наступним чином.

User–agent:*

Disallow: /cgi–bin/

Disallow: /tmp/

Disallow: /~adi/

В прикладі вище, три директорії виключені із пошуку роботів. Слід відзначити такий факт, що рядок “Disallow” повинен бути створений окремо для кожного URL, який ми хочимо виключити.

Зверніть увагу ми не можимо включити всі виключення в одну строку типу “Disallow:/cgi–bin/ /tmp/”. Також не має необхідності в білих рядках, в архіві, до тих пір поки вони використовують розмеження декілька архівів.

Все що не буде виключено, буде вважатись правильним і буде завантажуватись.

Щоб виключити всі роботи вашого сервера

User–agent:*

Disallow:/

Щоб дозволити доступ всім роботам сервера

User–agent:*

Disallow:

Щоб виключити всіх роботів із всіх розділів сервера

User–agent:*

Disallow: /cgi–bin/

Disallow: /tmp/

Disallow: /junk/

Для того щоб виключити одного робота

User–agent: BadBot

Disallow:/

Щоб дозволити доступ одному роботу

User–agent: Google

Disallow:

User–agent: *

Disallow:/

Щоб виключити всі файли крім одного, просто помістити всі файли, які будуть призупмнені в одну папку, наприклад “folder 1” і залишити цей один файл в директорії. 

User–agent: *

Disallow: /~adi/folder 1/

Таким самим чином можна виключити всі  бажані файли

User–agent: *

Disallow: /~adi/junk.html

Disallow: /~adi/foo.html

Disallow: /~adi/bar.html

Бувають коли не можливо створити файл robots.txt так як не можите керувати сервером. Існує новий стандарт ярликів HTML META для запобігання проникненню роботів в ваші документи. Основна ідея заключається в тому що ви виключаєте ярлики типу

<META NAME = “ROBOTS” CONTENT = “NOINDEX”>

В документі html, і цей документ не буде індексуватись якщо ви не зробите наступне 

<META NAME = “ROBOTS” CONTENT = “NOFOLLOW”>— посилання з цього документу не будуть оброблятись роботом.

По файлу robots.txt все, які ще інструкції прописувати, для кожної пошукової системи можна знайти інформацію на самих ресурсах, там розміщено достатньо інформації, якщо на даному етапі ви лише починаєте займатись веб дизайном, і вам складно роботити такі процедури, або боїтесь що щось зробите не правильно, і сайт взагалі перестане функціонувати, тоді просто створіть пустий текстовий файл.

На хостингу якщо є така можливість то створюєте файл robots.txt, саме з такою назвою і розширенням, якщо відсутня така можливість, тоді створюєте в себе на компютері, і перекидуєте на хостинг, складнощів щоб створити звичайний текстовий файл не бачу ні яких.

На цьому буду закруглятись, дехто з вас мабуть звернув увагу на картинки, на двох останніх публікацій вони дещо змінились, змінились тим що створені особисто мною а не скачані з Yandex, і створені програмою “фотошоп”.  Прога скажу “звір”, рекомендую навчитись з нею процювати, та і кожен веб майстер мабуть повинен вміти працювати в Photoshop.

До зустрічі.