Поисковая система Google первая среди поисковиков начала использовать индекс цитируемости веб-страниц для того, чтобы ранжировать результаты поисковой выдачи. Позиции веб-страниц в поисковой выдаче по какой-нибудь поисковой фразе зависят теперь не только от того, как часто эта фраза (или слова из этой фразы) встречается в тексте страницы, но и от того, насколько данная страница авторитетна. То есть насколько много на эту страницу ведет гипер-ссылок с других страниц Интернета.
Если говорить очень упрощенно, то чем больше ссылок ведет на веб-страницу с других страниц, тем она авторитетнее. При прочих равных условиях, более авторитетная страница занимает более высокую позицию в поисковой выдаче, чем менее авторитетная. (Под прочими равными условиями подразумевается, что если эти страницы рассматривать только по отношению к релевантности поискового запроса, то они должны занимать одинаковые позиции в поисковой выдаче по данному поисковому запросу.)
Для количественного измерения авторитетности поисковые системы используют разного рода индексы цитируемости. У разных поисковиков эти индексы цитируемости по-разному называются (и обозначаются) и имеют разные математические формулы.
Идея индекса цитируемости была взята из науки. В науке конкретная научная статья оценивается по тому, как много её упоминают в других научных статьях и научных книгах. Причем, учитывается не просто количество ссылок, но и вес этих упоминаний.
Если научная статья опубликована в таком научном журнале, в котором научные статьи очень строго рецензируются, то ссылки из такой статьи имеют очень высокий вес. Наоборот, если научная статья опубликована в таком научном журнале, где идет слабое рецензирование, куда принимают практически любые научные статьи, то ссылки из таких статей учитываются с маленьким весом.
Например, ссылки из статей в физическом журнале Physical Review имеют более высокий вес, чем ссылки из статей, опубликованных в физическом журнале Physica Status Solidi. Потому, что в журнал Physical Review идет более жесткий отбор научных статей и там очень трудно опубликоваться.
Наконец, если научная статья имеет сама по себе более высокий индекс цитируемости по сравнению с другой научной статьей, то ссылки из такой статьи тоже будут иметь более высокий вес.
В Интернете веб-статьи также ссылаются друг на друга посредством гипер-ссылок. Если такие гипер-ссылки рассматривать, как рекомендацию пользователю посетить веб-страничку, то естественным образом можно и для интернетовских страниц придумать формулу индекса цитируемости.
Но первоначальный смысл коэффициента PR (Page Rank) поисковой системы Google был в том, что этот показатель показывал в логарифмической шкале вероятность попадания на веб-страницу при случайных блужданиях по ссылкам в Интернете.
PR веб-страницы равный 10 означал, что с вероятностью равной единицы, пользователь попадал на эту страницу при случайном блуждании по ссылкам. Считалось, что при таких блужданиях, если пользователь оказывался на веб-странице, на которой стояло N прямых ссылок на другие веб-страницы (того же сайта и других сайтов), то вероятность перехода по конкретной ссылке равна 1/N.
Если PR веб-страницы равен 9, то это означало, что вероятность попадания на эту страницу на порядок меньше, чем на страницу с PR=10. Например, эта вероятность могла быть равной 0.1.
Если PR веб-страницы равен 8, то это означало, что вероятность попадания на эту страницу уже на два порядка меньше, чем на страницу с PR=10. Например, эта вероятность могла быть равной 0.01. И т.д.
Наконец, если у веб-страницы PR=1, то это означало, что вероятность попасть на эту страницу равна нулю. Такое могло произойти, если на эту веб-страницу не вела ни одна ссылка с других веб-страниц. Или на неё вели ссылки с таких веб-страниц, на которые, в свою очередь, не вели никакие ссылки из остальной части Интернета.
PR=1 также означал, что вероятность попадания на эту веб-страницу могла равняться не точно нулю, а быть очень близкой к нулю. Например, если на данную веб-страницу вели ссылки с таких страниц, на которые вело очень мало ссылок с других страниц. А на них в свою очередь тоже вело очень мало ссылок и т.д.
Нулевой (PR=0) Пейдж Рэнк веб-страницы означает, что Гугл еще не присвоил PR этой веб-странице. Page Rank присваивается равным единице любой веб-странице, которую Гугл считает более или менее нормальной. Значение PR=0 означает одно из двух. Или Гугл просто ничего не знает о существовании этой веб-страницы. Или Гугл считает эту веб-страницу на столько плохой, что даже не собирается никак учитывать её в своем ссылочном ранжировании.
Такова была первоначальная идея коэффициента Page Rank. Дело в том, что гипер-ссылками в Интернете определяется поток трафика пользователей Интернета. Поэтому PR показывал, куда перетекает поток пользователей Интернета. Тем самым коэффициент PR служил некоторым количественным показателем и авторитетности веб-страниц и поведенческого фактора пользователей Интернета.
В дальнейшем эта концепция была существенно переработана. Дело в том, что было очень затруднительно высчитывать PR отдельно взятой веб-страницы. Для такого вычисления боты Гугла реально должны были случайно блуждать по Интернету и собирать статистику о том, сколько раз они посещали все страницы Интернете и сколько раз они посещали данную конкретную веб-страницу.
Поэтому в Гугле придумали формулу для вычисления PR веб-страниц, которая учитывает только коэффициенты PR тех страниц, которые ссылаются на данную веб-страницу. Эта формула держится в строгом секрете. И кроме того, она постоянно модифицируется и совершенствуется.
Суть этих модификаций состоит в том, что PR тех страниц, которые ссылаются на данную страницу, учитывается с некоторыми весовыми коэффициентами. Эти коэффициенты учитывают на сколько соотносятся связанные линком веб-страницы и некоторые свойства страницы, где стоит ссылка.
Числовое значение PR, которое Google показывает публике, принимает только целые значения от 0 до 10. Но поисковая система Google использует непубличное значением Page Rank, которое связано с публичным значением R по следующей формуле.
Здесь P, это непубличное значение Page Rank, публичное значение R, а α, это некоторое число, которое зависит от полного количества всех веб-страниц, которые проиндексированы Гуглом. Это чисто нормировочное число, которое подбирается так, чтобы максимальный PR никогда не превышал 10.
Ну и само собой, что, после вычисления логарифма, PR еще как-то округляется до целого числа по каким-то правилам (до ближайшего целого или отбрасыванием дробной части или еще как-нибудь).
Сама формула вычисления значения P, как уже говорилось, в точности неизвестна, но известна её основа. Она выглядит так.
Здесь M, это количество всех веб-страниц, которые ссылаются на страницу, у которой подсчитывается непубличный P. Индекс m нумерует все эти страницы. Непубличный Pm, это непубличный P для m-й страницы, βm, это весовой коэффициент, с которым учитывается Pm страницы, а Nm, это число прямых ссылок на другие страницы, которое имеется на m-й странице. Наконец, d, это коэффициент затухания или, по-другому, коэффициент диссипации.
Наличие коэффициента затухания d связано с тем, что пользователь Интернета не может бесконечно долго находится в Интернете и бесконечно долго переходить по ссылкам. Рано или поздно, человеку нужно отойти от компьютера и заняться другими делами. Поэтому за один сеанс посещения Интернета, человек принципиально не может обойти все страницы Интернета.
Именно поэтому, посещая Интернет, мы в реальности каждый раз не попадаем на все те веб-страницы, которые имеют PR=10. С вероятностью равной единице на такие страницы попадают только боты поисковых систем, которые бесконечно долго блуждают по гипер-ссылкам.
Значит, Page Rank страницы не может передаваться другой веб-странице полностью на все 100%. Коэффициент d будет равен единице только для ботов, которые бесконечно долго путешествуют по гипер-ссылкам Интернета. А для человека он должен быть меньше единицы.
Существует статистика о том, сколько в среднем делает переходов по гипер-ссылкам один среднестатистический человек за один сеанс посещения Интернета. Исходя из этих данных, считается, что коэффициент d примерно равен 0.85. Из-за того, что d меньше единицы Page Rank не может передаваться в полном объёме через цепочку гипер-ссылок.
В то же время в формулу входит некий затравочный Page Rank в виде первого слагаемого, равного (1-d). Это тот самый затравочный Page Rank, который изначально присваивается каждой новой веб-странице Интернета. Дело в том, что любая новая страница Интернета может сама ссылаться на другие веб-страницы, в том числе и на те, которые сами ссылаются на неё. И тем самым наша новая веб-страница может изменить Page Rank тех страниц, которые ссылаются на неё. А значит и свой собственный Page Rank.
Всё это вычисляется путем сходящегося итерационного процесса. Но для начала этих итерационных вычислений требуется, чтобы у новой страницы был некоторый затравочный Page Rank.
Чтобы Вам было более понятно, зачем нужен затравочный Page Rank, представьте себе такую ситуацию. Пусть на новую страницу A ссылаются только страницы с публичными PR=1 (нулевые непубличные Page Rank или близкие к нулю). Но при этом одной из этих ссылающихся страниц B не хватает всего одной единственной ссылки на В (даже со страницы с близким к нулю Page Rank), чтобы её публичный стал PR=2. И пусть новая веб-страница A как раз и ссылается на эту страницу B, которой не хватает еще одной ссылки. Если у новой страницы A нет своего затравочного непубличного Page Rank, то она будет иметь нулевой непубличный Page Rank, так как получит от всех ссылающихся на неё страниц тоже нулевые непубличные Page Rank. Значит, её ссылка на страницу B никак не повлияет на Page Rank страницы B, так как B получит от A нулевой Page Rank. А по идее, число ссылок на страницу B теперь превышает критическое число и её публичный PR должен повыситься до 2, что при отсутствии затравочного Page Rank не происходит.
Число прямых ссылок на странице Nm стоит коэффициентом в числителе перед Page Rank ссылающихся страниц. Значит, чем больше на странице прямых ссылок, тем меньший Page Rank передается по каждой из этих ссылок. Представляет ценность поставить прямые ссылки на страницы своего сайта не просто со страниц с высоким Page Rank, но и чтобы на таких страницах было как можно меньше других ссылок.
Наконец, коэффициенты βm, это те самые коэффициенты, которые зависят и от качества самой ссылающейся страницы и от соотношения между собой двух ссылающихся страниц. Поэтому коэффициент β может и одинаково занижать все ссылки с одной страницы, и также занижать ссылки с одной страницы индивидуально по-разному. Эти коэффициенты могут принимать значения от 0 до 1.
Гугл одинаково понижает коэффициент βm для всех ссылок с тех страниц, которые он считает не очень качественными для целей ссылочного ранжирования. То есть сама по себе такая веб-страница может быть очень хорошей. Теоретически она может даже занимать первые места в поисковой выдачи Гугла по достаточно конкурентным ключевым словам. Но Гугл может оценить эту веб-страницу, как плохую именно для формирования ссылочного ранжирования.
Например, если Гугл посчитает, что на части веб-страницы находится хороший полезный контент, а на другой части этой страницы находится линкопомойка, то Гугл дополнительно снизит вес всех ссылок с такой страницы, сделав β меньше единицы. (Если там только одна линкопомойка, то Гугл, вообще, не будет присваивать такой странице Page Rank.)
Или, например, Гугл может занижать вес всех ссылок с таких страниц, где эти ссылки может поставить любой желающий. Это доски объявлений, форумы, сайты на бесплатных хостингах, комментарии к постам блогов, сообщения в социальных сетях, ссылки в проектах вопросов и ответов, и т.п. Вес ссылок из таких мест всегда занижается потому, что любой веб-мастер может сам специально ставить там ссылки на страницы своего сайта. Например, веб-мастер может завести на бесплатном хостинге несколько своих маленьких сайтов-сателлитов (линкоферма), чтобы ставить с них ссылки на свой основной сайт.
На коэффициент βm влияет еще и соотношение между ссылающимися страницами. В этом случае разные ссылки с одной и той же веб-страницы могут иметь разные коэффициенты β, в зависимости от того, что это за ссылки и на какие страницы они ведут.
В первую очередь на это влияет тематичность ссылающихся страниц. Например, если страница, посвященная устройству двухмоторных немецких самолетов, ссылается на страницу, которая тоже посвящена устройству двухмоторных немецких самолетов, то коэффициент β будет равен единице.
Если ссылка с такой страницы идет на страницу, которая посвящена не устройству, а особенностям полетов на двухмоторных немецких самолетах, то коэффициент β уже не будет в точности равен единице, но будет очень-очень близок к единице.
Если ссылка с такой страницы идет на страницу, которая посвящена просто всем самолетам и всему что связано с самолетами, то β будет еще ниже, но пока еще близко к единице.
Если ссылка с такой страницы идет на страницу, которая посвящена вертолетам или парашютам, то, скорее всего, β будет уже ближе к 0.5, хотя и больше, чем 0.5.
А вот если ссылка с такой страницы идет на страницу, которая посвящена чему-то совсем далекому от устройства немецких двухмоторных самолетов, например, парфюмерии, выборам в парламент, раскрутке сайтов, сексу, сборке компьютеров, производству консервов, биографии Менделеева, борьбе с вирусами и т.д., тогда β будет меньше 0.5. И чем больше тематики двух страниц будут отличаться друг с другом, тем этот коэффициент должен быть меньше.
Но бывают и случаи, когда β может занижаться даже и для страниц со схожей тематикой. Это случается, когда Гугл подозревает, что ссылка используется для искусственного наращивания ссылочного ранжирования.
Например, если Гугл считает, что это продажная ссылка, которая поставлена за деньги. При этом все другие ссылки на другие веб-страницы с этой страницы не являются продажными и поэтому их веса не занижены. Один из способов распознавания продажных ссылок описан в статье "Почему ЛинкФид лучше Сапы".
Или, например, если Гугл считает, что происходит искусственное наращивание ссылочной массы на страницу. В этом случае опять другие ссылки с веб-страницы могут и не занижаться по весу, если они не участвуют в искусственном наращивании ссылочной массы.
Или, если Гугл считает, что данная ссылка является участником сообщества взаимообмена ссылками. Например, несколько сайтов используют сервис обмена ссылками и ссылаются друг на друга по цепочке, замкнутой в кольцо. И данная ссылка как раз и является одним из звеньев этой цепочки. Вес такой ссылки будет занижен. В то время, как другие ссылки с этой страницы могут избежать такого наказания от Гугла.
Почему Вы тратите столько сил, времени и денег на раскрутку своего сайта, а результат получается совсем мизерный. В то время, как другие вебмастера тратят на раскрутку своего сайта совсем немного сил, времени и денег, а результат получается колоссальным. Бывает, что некоторые вебмастера совсем не озабочены раскруткой своего сайта, и тем не менее, каким-то чудом их вебстраницы оказываются в первой десятке поисковой выдаче по, казалось бы, достаточно конкурентному поисковому запросу. Дело в том, что у разных сайтов имеется разная репутация в поисковых системах. Поисковики относятся к разным сайтам с разной степенью доверия. Эта степень доверия зависит от всего прошлого и нынешнего поведения сайта, а точнее от поведения его вебмастера.
Читать далее >>>
Очень часто вебмастер задается таким практичным вопросом: "А сколько нужно иметь входящих ссылок на какую-нибудь страницу своего сайта, чтобы повысить PR этой страницы?" Используя формулу вычисления PR и зная свойства ссылающихся страниц, можно сделать оценку нужного количества ссылок. Это количество входящих ссылок экспоненциально растет при росте положительной разницы между желаемым значением PR и тем PR, который имеет страница в данный момент. И очень существенно количество входящих ссылок зависит от свойств ссылающихся страниц. Если PR Вашей страницы маленький, то для его повышения бывает достаточно всего одной единственной ссылки со страницы с высоким значением PR.
Читать далее >>>
Когда поисковая система получает поисковый запрос пользователя, то она должна сформировать список поисковой выдачи. С каждого сайта, который подходит под тематику поискового запроса, поисковик берет по одной странице. Но эти страницы нужно разместить в упорядоченный список. Искалка оценивает эти страницы (и сайты) по нескольким сотням самых разных параметров и вычисляет, сколько баллов набирает та или иная вебстраница. На первое место в поисковой выдаче ставится та страница, которая набрала самое большое число баллов. Далее идут страницы с уменьшением набранных баллов. Каждый из учитываемых параметров учитывается со своим весом. Поэтому не все эти несколько сотен параметров равнозначны. Есть примерно 30 параметров, которые поисковики учитывают с достаточно большими весами. Именно на этих параметрах и нужно сконцентрироваться вебмастеру при раскрутке своего сайта. Вот эти 30 параметров.
Читать далее >>>
Какие адреса вебстраниц любят поисковые системы? Почему статические адреса лучше динамических? Как динамические адреса вебстраниц преобразовать в статические? Почему хостинг с поддержкой языка веб-программирования PHP лучше, чем хостинг без такой поддержки? Какие модули Apache важны для модификации адресов вебстраниц? Хорошо ли поисковые системы воспринимают адреса вебстраниц в виде папок? Ответы на эти вопросы должен знать каждый вебмастер.
Читать далее >>>
------------------
Автор статьи: Евгений Миронов.
[0] Основы раскрутки сайта
[1] Ошибочные способы раскрутки сайта
[2] Каталоги сайтов
[3] Копирование контента - основная причина бана
[4] Формула PR Гугла
[5] Некоторые мифы о PR Гугла
[6] Сколько ссылок повышают PR
[7] На что смотрят поисковые системы
[8] Что поисковые системы игнорируют на сайте
[9] Влияние адресов страниц на раскрутку
[10] Значение HTML-разметки для раскрутки сайта
[11] Трастовый сайт
[12] Классификация методов раскрутки сайта
[13] Политика линкования