Генератор карты сайта бот GSiteCrawler

Вы наверняка на некоторых сайтах встречали карту сайта. И, возможно, даже заходили на нее, чтобы посмотреть, что это такое. Там Вы обнаруживали список ссылок на все страницы сайта. Вряд ли Вы когда-нибудь пользовались на каком-нибудь сайте картой этого сайта. Эти карты сайта очень неудобные. Часто список страниц идет не по алфавиту без группировки по темам и порой вообще без названия страниц, а только с одними адресами. Ничего по такой карте сайта найти невозможно. Ну разве, если страниц на сайте мало, то можно погулять по всем станицам, чтобы понять не пропустили ли Вы что-нибудь.

Кому же нужна эта карта сайта? Действительно эта карта сайта нужна не для посетителей сайта, а для поисковых систем.

Дело в том, что поисковые системы очень не любят индексировать сайт слишком глубоко. То что находится на расстоянии трех кликов от главной страницы сайта будет проиндексировано обязательно. Но вот те страницы, до которых можно добраться только через 4-5 кликов от главной страницы, поисковик может и не проиндексировать. С точки зрения поисковых систем, страницы сайта, лежащие слишком глубоко не столь существенны, как страницы сайта лежащие близко к главной страницы сайта.

Обратите внимание, что под расстоянием между страницами в Интернете понимается минимальное число кликов, которое надо сделать с одной страницы, чтобы попасть на другую страницу. (Расстояния в Интернете несимметричны, AB может не быть равным BA.) Это расстояние не зависит от того, сколько вложенных папок (директорий) надо открыть, чтобы перейти на сервере хостинга от одного файла к другому. Файл может быть спрятан глубоко во вложенных папках, но к нему может вести с главной страницы сайта переход всего в один клик. Такая страница сайта будет проиндексирована. И, наоборот, может встречаться ситуаци, когда страница не индексируется поисковиком, хотя ее файл лежит в корневой директории сайта, но чтобы попасть на эту страницу, надо с главной сделать переход минимум в 10 кликов.

Часто при создании сайта возникает такая ситуация, когда по логике некоторые страницы должны располагаться на большом расстоянии от главной. Есть риск, что бот поисковой системы никогда не доберется до них. Часто вэбмастеры идут на разного рода ухищрения, смысл которых состоит в том, чтобы добавить на некоторых неглубоко лежащих страницах сайта (этого или другого сайта) ссылки на некоторые глубокие страницы сайта, так чтобы поисковик нашел и проиндексировал целые гроздья глубоких страниц.

Но это некоторая искусственность. Ссылки поставленные таким образом часто бывают неуместными. А самое главное, об этой проблеме надо всегда помнить, надо всега высчитывать расстояния до глубоких страниц и пытаться сократить их.

Если Вы знакомы с теорией распределения PR по сайту, тогда Вам дополнительно должна не понравится идея ставить ссылки с главной и близлежащих страниц на глубокие. Ведь для роста PR главной страницы, надо, наоборот, передавать ссылочное ранжирование на главную страницу сайта.

Все эти проблемы решает наличие на сайте карты сайта. Карта сайта должна располагаться на расстоянии всего 1 или 2 клика от главной страницы. Поэтому на любую страницу сайта можно будет попасть максимум в три клика с главной страницы. Карта сайта забирает себе немного PR с главной страницы сайта, особенно, если она находится не в одном, а в двух кликах от главной страницы. Вся система ссылок между страницами сайта будет иметь естественную природу, так как Вам не надо думать о том, где бы еще поставить какую-нибудь ссылку чтобы сократить расстояния между страницами сайта.

Но возникает другая проблема. Нужно не забывать все время вести эту страницу сайта. Как только на сайте появляются какие-то новые страницы, рисунки, архивы и т.п., надо тут же добавлять эту информацию в карту сайта. Боты поисковых систем, конечно не каждый день заходят к Вам на сайт. Это может происходить, например, только раз в месяц или раз в неделю. Поэтому карту сайта можно обновлять не каждый день. Но если на сайте много страниц, то вы рискуете забыть про некоторые страницы и потом уже не вспомнить про них никогда. Наконец, на многих очень оживленных форумах и подобных сайтах в день могут появляться десятки и даже сотни новых страниц. В этом случае, если в движок такого форума не встроен автоматический генератор карты сайта, то просто физически будет невозможно делать карту сайта "руками".

Такие проблемы решают генераторы карты сайта. Здесь рассмотрим работу бесплатного генератора GSiteCrawler. Достоинством этой программы является то, что она может создать две карты сайта, одну в формате рекомендованном поисковиком Google и другую в формате ремомендованном поисковике Yahoo. Формат для Yahoo будет интересен тем, кто делает сайты для Буржуйнета. А для Рунета более интересен формат Google. Впрочем Yandex понимает оба формата. Поэтому для совместимости Google и Yandex будем создавать только одну карту сайта в формате Google. Полное описание этого формата можно найти на официальном сайте Протокола карты сайта sitemap.xml. Скачать версию 1.23 rev 286 программы GSiteCrawler можно бесплатно здесь. (После перехода по этой ссылке выбирайте бесплатный режим скачивания из двух предложенных режимов.)

После запуска инсталляционной программы надо выбрать язык из двух вариантов, немецкий или английский. К сожалению программа не русифицирована. Свой немецкий я благополучно забыл сразу же после окончания средней школы, поэтому если у Вас трудности с обеими языками, то выбирайте английский, так как все дальнейшие разъяснения идут для английского языка.

Далее при установке программы соглашаемся со всеми условиями пользовательского соглашения и на предложение сделать BackUp всех заменяемых системных файлов обязательно отвечаем согласием. Если что-то не получится, то можно будет деинсталлировать программу с помощью специального деинсталлятора (который тоже установится программой установки). И все старые файлы будут восстановлены.

Итак, запускаем программу. Настроить программу можно и без подключения к Интернету. Но запуск самого Краулера (Crawler - паук), который обходит страницы сайта, нужно производить при подключенном Интернете.

После запуска программы, Вы увидите в левом столбце список проектов, которые там сидят по умолчанию. Можете вычистить весь этот список. Для этого выделяете мышью или стрелками какой-нибудь проект и нажимаете на кнопку Delete снизу. Программа несколько раз спросит Вас уверены ли Вы и удалять ли все со всеми "потрохами". Вы все время отвечаете Да (Yes).

Теперь в этот список надо завести свой проект, то есть свой сайт. Слева во вкладке Project в первой строке пишем какое-нибудь осмысленное название проекта (можно на русском). А во второй строке пишем его адрес. Там ниже дается пояснение, что адрес сайта надо обязательно начинать с указания протокола "http://", а заканчивать символом слэша "/". Причем адрес не должен заканчиваться именем файла. Замечу, что все ссылки, указанные в карте сайта должны использовать тот же протокол, по которому доступен сам файл карты сайта. Например, если карта сайта доступна по протоколу http, то она не должна содержать ссылки доступные по протоколу https. Если что-то не ясно, то смотрите там же ниже есть примеры.

Внимательно посмотрите на эти примеры и обратите внимание на два момента.

Первый. Можно делать карту сайта не всего сайта, а только его части. Google допускает, что карта сайта может быть разбита на несколько файлов. Но должен быть файл верхнего уровня sitemap_index.xml, где стоят ссылки на отдельные части карты сайта. Если Вы разбиваете карту сайта на несколько частей, то ссылка на файл верхнего уровня должна быть в одном клике от главной страницы сайта, чтобы до любой страницы можно было добраться не более чем в три клика от главной. Сами файлы отдельных частей должны располагаться в тех папках сайта, которые Вы указали адресах проектов. Ссылки в файле карты сайта или его части должны указывать на страницы, находящиеся в той же папке или ее подкаталогах, что и сам файл карты сайта или файл части карты сайта.

Разбивка карты сайта на части практикуется, когда сайт состоит из огромных частей одни из которых меняются медленно, а другие быстро. Например, если Ваш сайт состоит из большого блога, где Вы добавляете новый пост 2-3 раза в месяц и большого форума, где ежедневно добавляются новые страницы, то понятно, что карту форума надо обновлять очень часто, и для ускорения генерации карты сайта можно не заставлять бота программы GSiteCrawler обходить заново огромный блог, в котором ничего не поменялось.

Замечу, что в каждой части карты сайта должно быть не более 50 тысяч адресов страниц сайта и размер каждой части не должен превышать 10 Мб. Эти ограничения также приводят к тому, что для большого сайта приходится разбивать карту сайта на части. Я здесь не буду рассказывать, как сделать разбивку карты сайта на несколько частей. Если Вас это сильно интересует, то отсылаю Вас опять к официальному сайту Протокола карты сайта sitemap.xml. Смотрите там, как организовать файл верхнего уровня для карты сайта sitemap_index.xml.

Второй момент. Имя сайта пишется с www или без www в зависимости от того, хотите ли Вы, чтобы это www было в каждой строке карты сайта или нет. А это выбирается уже исходя из того, как Вы задали главный сайт в файле robots.txt для Яндекса и главный сайт в инструментх вэбмастера для Гугла.

Наконец, отмечу, что программа GSiteCrawler делает карту любого сайта, даже сайта на бесплатном хостинге в домене третьего уровня.

Далее жмем на кнопку Add to list, чтобы добавить наш проект в список слева. Имя проекта в списке слева должно быть выделено. Все настройки, которые дальше мы будем делать относятся к тому проекту, который выделен в списке слева. Итак, переходим на следующую вкладку Settings. Внутри этой вкладки имеется еще 3 вкладки. Смотрим вкладку General.

Ставить галочку или нет в первом пункте (URLs are case-sensitive (Linux/Unix-Servers)) зависит от того на сколько Вы понимаете разницу между операционной системой Windows и Linux/Unix. В Windows регистр букв в названии файлов, папок и дисков не играет роли. Три файла file.html, FILE.HTML и FiLe.htML в Windows считаются одним и тем же файлом просто с разными вариантами написания. В операционных системах Unix и Linux эти три файла считаются тремя разными файлами. Все эти три файла могут одновременно находиться в одной папке в этих операционных системах. Сервера на хостингах бывают как на базе Windows, так и на базе Unix/Linux. Если Вы не знаете на базе какой операционной системы работает сервер, где расположен Ваш сайт, то можете создать на сервере в одной папке два файла, скажем, file.html и FILE.HTML. Если оба файла будут существовать одновременно, то значит Ваш сервер работает под операционной системой Unix или Linux. Это значит, что по идее нужно ставить галочку в пункте URLs are case-sensitive (Linux/Unix-Servers), то есть у Вас могут быть разные файлы отличающиеся регистром букв в написании их имен.

Однако, галочку можно и не ставить, если Вы копируете на сервер файлы и папки с именами только в нижнем регистре. Обычно опытные вэбмастера поступают именно так для совместимости с разными хостингами, да и просто на тот случай, если потребуется скопировать сайт на диск в компьютере, который работает под Windows. Возьмите себе за правило все папки и файлы на сайте делать только в нижнем регистре, а верхний регистр никогда не использовать. Если Вы никогда не придерживались этого правила и не уверены, что у Вас на сервере под Unix или Linux нет двух одиноковых файлов по названию, но разных по написанию, то лучше на всякий случай поставить галочку.

В следующем пункте (Remove trailing slash on folder names) галочку лучше не ставить. Пусть в конце имен папок будет стоять слэш "/". Это увеличит совместимость карты сайта с большим количеством поисковиков.

Ставить ли галочку в третьем пункте (Remove HTML Comments before parsing pages) выбирайте сами. Если поставите галочку, то Краулер не пойдет по таким ссылкам, которые стоят в комментариях. Поисковики, в общем-то, по таким ссылкам как раз и не ходят. Смысл не ставить галочку есть только тогда, когда у Вас на сайте есть страницы, на которые не ведут никакие нормальные ссылки, но Вам бы хотелось, чтобы эти страницы были тоже проиндексированы. Такая ситуация обычно возникает при использовании редиректов или навигационное меню на языке JavaScript и т.п.

Далее идет список типов файлов, которые будут индексироваться Краулером. Изначально там стоит следующий список: htm, html, asp, aspx, php, php5, cgi, pl, py, cfm. Надо нажать на кнопку Default, чтобы расширить этот список до следующего: asp, aspx, cfm, cgi, do, htm, html, jsp, mv, mvc, php, php5, phtml, pl, py, shtml. Пусть там будут все типы файлов, которые могут содержать контент интересующий поисковиков. Конечно, если Вы уверены, что на Вашем сайте нет никаких файлов, кроме файлов с расширением html, то можно оставить в списке только один этот тип. Но если Ваш сайт построен на малознакомом для Вас движке, то лучше заранее включить в этот список все что можно.

Затем нажимаем на следующую кнопку Default, чтобы создать список объектов Вашего сайта, которые не содержат индексируемый контент, но которые Вам бы хотелось включить в список карты сайта. Это разного рода картинки, музыкальные файлы, фильмы, флэш-анимация, файлы от Word и Excel и другие. Советую добавить в этот список еще и архивы zip, rar, arj и т.п. Некоторые поисковики сейчас умеют индексировать файлы PDF и файлы от Word. Если есть необходимость индексации таких файлов, то добавьте файлы типа pdf и doc в первый список индексируемых файлов и исключите их из второго списка.

Следующую строку оставляем пустой. Затем в Location of project files можно написать путь, куда будут сохраняться файлы карты сайта. Удобно сохранять их в той папке, где Вы создаете свой сайт в компьютере. По умолчанию программа сохраняет созданные карты сайта там же, где она инсталлирована. В следующих двух строках Вы можете изменить названия файлов карт сайта для стандарта Google и стандарта Yahoo, соответственно. Это бывает необходимо, когда карта сайта разбита на отдельные части. Расширения файлов xml и txt менять не нужно.

Далее выбираете, что надо делать, если файл не найден (Action on error 404 (file not found)). Иногда бывают такие ситуации, когда страница на сайте удалена или переименована, а ссылки на нее остались, или в ссылке сделаны орфографические ошибки и поэтому ссылка не ведет на страницу сайта. Такие вещи надо отслеживать и исправлять. И тут Краулер Вам в помощь! У Вас три варианта: Do nothing - игнорировать такие ссылки, Mark URL as not included - пометить адрес как несуществующий и Remove URL from list - исключить несуществующий адрес из списка. Что бы Вы не выбрали, у Вас в любом случае будет создан файл Aborted.txt со списком всех таких битых ссылок, где будет указано, какой файл не был найден и на каких страницах стоят ссылки на этот файл. Вам надо будет внимательно изучить этот файл, исправить на сайте все ошибки и заново запустить Краулер, а потом создать новую карту сайта.

Далее идет установка приоритета данного Вашего проекта для Краулера (Priority for this project in the crawler). Приоритет меняется в пределах от 0 до 200. Этот параметр нужен, если Вы одновременно запускаете создание карты сайта для нескольких проектов. Если вы не запускаете параллельное создание нескольких карт сайта, то не меняйте этот параметр.

Наконец, поставьте галочку на Include date last modified on the URL according to the server. В стандарте Google карта сайта должна содержать время последнего изменения файла.

Нажимаете на кнопку Set и переходите к следующей вкладке FTP.

Эта вкладка нужна, чтобы созданную карту сайта сразу же после создания забросить на сайт по протоколу FTP. На вкладке настраиваются параметры FTP-подключения: имя сервера, порт, пароль, папка в которую поместить карту сайта и т.п. С этим Вы разберетесь как-нибудь самостоятельно. Только имейте ввиду, что некоторые бесплатные хостинги не допускают подключение по FTP-протоколу. А пока убираем галочку на самом первом пункте (Upload sitemap file(s) via FTP?). Карту сайта сначала проверим и только потом закинем на сайт.

Следующую вкладку Automation (Автоматизация) пока пропускаем. Убираем галочку с пункта Enable simple automation (включить простую автоматизацию). Здесь вы сможете потом в будущем задавать автоматические перезапуски Краулера с последующим забрасыванием карты сайта на свой сайт и информирование об этом обновлении Гугла.

Переходим к вкладке верхнего уровня Filter. Эта вкладка содержит три вкладки: Ban URLs, Drop parts и Remove parameters.

Ban URLs. Здесь мы задаем имена тех страниц сайта, которые не должны попасть в карту сайта. Например, не за чем в карте сайта сидеть странице, в которой посетитель сайта набирает свой логин и пароль, чтобы авторизоваться на сайте. Обычно адрес такой страницы содержит слово login. Поэтому достаточно в список включить только одно это слово, если Вы уверены, что в адресах других нужных страниц это слово не встречается. Вы можете импортировать в этот список забаненные страницы из Вашего файла robots.txt (требуется подключение к Интернету) по кнопке, расположенной справа внизу. Забанить в списке Ban URLs нужно все секретные страницы Вашего сайта, куда возможен доступ только по паролю.

Drop parts. Если на Вашем сайте одна и та же страница может быть представлена как разные динамические страницы, то можно задать, чтобы Краулер отбрасывал заданные в списке динамические части страниц.

Remove parameters. Если страницы сайта содержат какие-нибудь параметры, например, параметры сессий, то в списке можно задать, какие параметры выкидывать из адресов страниц.

Переходим на вкладку URL list. На этой вкладке Вы, вообще говоря, когда заходите туда впервый раз, можете увидеть в таблице много лишних адресов, которые там стоят по умолчанию. А может и нет. Чтобы удалить все лишнее, надо оставить галочку в первом столбце Manual только в строке с Вашим сайтом. И затем нажать на кнопку внизу Delete all non-manual links. При этом все лишнее из таблицы удалится и останется только одна строка с адресом Вашего сайта. Поставьте еще две галочки в столбцах Include и Crawl.

Теперь нужно подключиться к Интернету, если Вы еще не подключены, и можно запускать Краулер для обхода Вашего сайта. Для этого в верхней части меню находим пункт (Re)Crawl, а в нем запускаем подпункт This project. После чего Краулер запускается, о чем свидетельствует надпись Crawlers busy в левом нижнем углу окна программы, которая появляется примерно через 10-15 секунд после запуска Краулера. После окончания обхода сайта эта надпись меняется на Crawlers idle и, возможно, выскакивает на несколько секунд окно с надписью The Crawlers are now empty.

Теперь будем генерировать карту сайта. Выбираем в верхнем меню пункт Generate, а в нем подпункт Google sitemap file. Программа спросит у Вас где сохранить карту и затем сохранит три файла (или еще четвертый файл Aborted.txt). По умолчанию это будут файлы:

На сайт достаточно закинуть только файл sitemap.xml. Но если Вы хотите просматривать карту сайта через браузер, то закиньте на свой сайт в ту же папку и таблицу стилей gss.xsl, иначе файл визуально будет выглядеть очень плохо и нечитаемо. Упакованный файл sitemap.xml.gz можно использовать вместо файла sitemap.xml для преодоления ограничения в 10 Мб для файлов карты сайта, но только на хостингах с операционными системами Unix и Linux, где эти файлы распаковываются "на лету".

Кликнем два раза мышкой на файле sitemap.xml, чтобы загрузить его в браузер для просмотра. Вверху страницы в заголовке написан адрес файла sitemap.xml. Если файл находится пока еще у Вас в компьютере, там может быть написана какая-нибудь абракадабра, начинающаяся с фразы Google Sitemap file://localhost/. Но Вы не обращайте на это внимание. Когда файл sitemap.xml будет на сайте, то там будет высвечиваться его нормальный адрес, типа Google Sitemap http://site.ru/sitemap.xml. Сейчас нам главное посмотреть, что находится в таблице.

В первой колонке Sitemap URL перечислены адреса всех файлов, найденных Краулером на сайте. Во второй колонке Last modification date показано время последнего изменения файла. В третьей колонке Change freq. показана примерная частота с которой Вы изменяете файлы на сервере. Наконец, в четвертой колонке Priority показан желательный приоритет в индексации. Можно сделать прямую и обратную сортировку строк таблицы по разным столбцам. Маленькая стрелочка в верхней части таблицы указывает по какому столбцу в данный момент отсортированны строки таблицы.

Сразу же замечу, что не следует пытаться приучить Google заходить на свой сайт почаще путем редактирования данных этой таблицы, например, выставления более свежих дат последней модификации и увеличения частоты модификации файлов. Google все равно сравнит старую и новую версии файлов и поймет, что его пытаются надуть.

Что касается приоритетов, то это относительные приоритеты. Если Вы считаете, что у Вас есть какие-то страницы, где очень часто меняется информация, то поставьте вручную этим страницам приоритет равный единице. Google примет это к сведению, но это еще не гарантия, что он будет туда заходить чаще. Ведь Google может посчитать, что хотя информация и меняется там слишком часто, но она не существенная. Также и нулевой приоритет для страницы не означает, что Google совсем не будет туда заходить.

Наконец, осталось посмотреть последнюю вкладку в программе Statistics. После создания карты сайта заходим на эту вкладку и генерируем разные полезные отчеты с помощью меню Type и кнопки Generate statistics. Все эти отчеты будут автоматически сохранены в txt-файлах.

В заключение посмотрим, как карту сайта можно сообщить поисковикам не делая ссылок на файл карты сайта с главной страницы сайта. Для этого можно использовать файл robots.txt. В этом файле должна присутствовать строка, типа
Sitemap: http://site.ru/sitemap.xml
то есть с указанием полного пути до карты сайта и протокола.

Файлы sitemap.xml и gss.xsl закидываются на хостинг в текстовом режиме, а файл sitemap.xml.gz в двоичном режиме через любой FTP-клиент, типа бесплатной программы FileZilla Client (выберите бесплатный режим скачивания FileZilla, если будете ее скачивать здесь).


Классификация заработка в Интернете

Кошелек WebMoney

Свой домен

Хостинг

Сайтострой

Раскрутка сайта

Раскрутка в соц.сетях

Авторские права

Прямые ссылки

Налоги

Самые простые
заработки на своем сайте

Интернет-магазин


Приложения

Список Аддурилок

Опасный Яндекс

HTML-редактор
с учебниками

FTP-клиент
FileZilla Client

Генератор карты сайта

Простые шаблоны

Бесплатные хостинги
Список халявных хостингов

Как создать свой сайт


Если нет своего сайта

Список укротителей ссылок

Как распознать лохотрон

Заработок в Интернете
для тех у кого нет сайта

Инвестиции в Интернете
без сайта


Разное

Словарь

Юмор

Блог?... Скорее КинжЛог!










Наши Сервисы:

Генератор сайтов

Скачать халяву

Скидочные купоны

Визуальный онлайновый конвертор

Мастер Рефералов

Генератор паролей

Генератор цветовых схем

Проверка качества сайта

Бесплатные скрипты