google-pagerankCеред вебмайстрів постійним інтересом користується алгоритмами розрахунку PageRank. У даній статті я розкрию принципи обчислення PageRank.

Застосування PageRank в пошуковиках

Традиційні способи знаходження релевантних сторінок, у разі односкладових запитів не дають задовільних результатів, тому що по популярних тем (наприклад “реферати”, “робота”) завжди знайдеться велика кількість сторінок з однаковою релевантностью. Для того, щоб якось впорядкувати такі сторінки, пошуковики пускаються на різні хитрощі.

Наприклад видають першими ті сторінки, які мають велику відвідуваність (Rambler) або які присутні в каталозі (Yandex, Aport). В Google для цих цілей застосовується PageRank, що дає приголомшливі результати, і за короткий час Google став займати лідируючі позиції не тільки за обсягом бази, але і за якістю пошуку.

На ряду з впорядкуванням результатів пошуку по PageRank, є і інше застосування для цієї технології. Справа в тому, що число сторінок в Інтернеті на стільки велика, що пошуковики вже не можуть собі дозволити індексувати все підряд. А оскільки PageRank служить критерієм цінності сторінки, то логічно проводити індексацію сторінок в порядку убування PageRank.

В Google пішли навіть далі: тепер простої відправки форми для реєстрації не достатньо, – для того, щоб сайт був проіндексований необхідна наявність хоча б одного зовнішнього посилання.

Введення в PageRank

PageRank – статична величина, призначена для оцінки якості сторінок не залежно від будь-яких запитів, тобто за допомогою PageRank обчислюється “глобальна цінність” кожної сторінки. Автори PageRank Сергій Брін і Ларрі Пейдж, які розробили технологію додаткового ранжирування результатів видачі пошуковиків, надалі стали засновниками компанії Google.

За основу PageRank був обраний академічний підхід оцінки важливості публікації автора по числу її згадок в бібліографічних посиланнях інших авторів. Для адаптації до застосування в Інтернет в алгоритм були внесені наступні зміни: вага кожного посилання враховується індивідуально і нормується за кількістю посилань на сторінці.

 Крім того, PageRank може бути інтерпретовано в термінах випадкового блукання.

Обчислення Pagerank

Уявіть собі ідеального веб-серфера переміщається по всесвітній павутині. Нехай серфер відвідує сторінку p, випадкове блукання при цьому знаходиться в стані p. На кожному кроці, веб-серфер або перестрибує на іншу сторінку в мережі, обрану псевдо-випадковим чином, або він слід за посиланням на поточній сторінці, при цьому не повертаючись і не відвідуючи одну і ту ж сторінку двічі. Імовірність випадкового стрибка позначимо як d тоді ймовірність переходу за посиланням буде 1-d. Таким чином, вірогідність знаходження користувача на сторінці p можна обчислити за такою формулою: де R (p) – PageRank сторінки, С (p) – число посилань на сторінці, к – число посилаються на p сторінок, d-коефіцієнт загасання (damping factor) .Зазвичай 0.1.

Якщо масштабувати PageRank таким чином, що де N – число всіх сторінок, для яких проводиться розрахунок PageRank, то R (p) можна розглядати як розподіл ймовірності по всіх сторінках. Для обчислення PageRank складається матриця M розміром NxN, де кожному елементу mij матриці присвоюється значення R0 (p) = 1 / C (p) в тому випадку, якщо з i-ї сторінки є посилання на j-ую, що все залишилися елементи матриці заповнюються нулями .

Таким чином, обчислення PageRank зводиться до відшукання власного вектора матриці M що досягається множенням матриці M на вектор Rj на кожному кроці ітерації. Введення коефіцієнта загасання гарантує, що процес сходиться. Підвищуємо значимість сайту Усвідомивши переможну ходу PageRank, не можна не задуматися про його збільшення для своєї сторінки. Інтуїтивно зрозуміло, що чим авторитетніший ресурс, на якому розміщено посилання тим більше вона збільшує PageRank сторінки, на яку посилається.

І навпаки, чим більше посилань на сторінці, тим менше буде її внесок у підвищення PageRank вашої сторінки – ще один доказ марності участі в FFA (Free For All – сайти, що містять набір посилань з вільним додаванням). Менш очевидна оптимальна топологія взаємно ссилающихся сторінок.

Наприклад, сторінки організовані в “кільце” (коли кожна сторінка посилається на сусіда зліва і справа, остання посилається на першу, а перша на останню) будуть мати один і той же PageRank не залежно від кількості сторінок в кільці (якщо не проводити масштабування по сумі , то PageRank у всіх буде дорівнює 1).

Те ж справедливо для «зірок» або випадку, коли всі посилаються на всіх, і, ймовірно, це твердження справедливо взагалі для всіх симетричних топологій. Набагато більш перспективні з точки зору збільшення PageRank асиметричні топології.

Твердження про марність створення «порожніх» (але посилаються один на одного) сайтів у безкоштовних хостерів не настільки очевидно.

Наприклад, можна організувати обмін посиланнями на 5 сайтах таким чином, що в одного з них PageRank буде в 15 разів більше, ніж мінімальний не нульовий PageRank. У цьому нескладно переконатися, написавши невелику програмку. Деякі поширені помилки пов’язані з PageRank.

Проаналізувавши повідомлення в форумах, присвячених позиціонуванню в пошукових системах, можна виділити цілий ряд тверджень про PageRank, як мінімум спірних, а часто просто невірних.

Коротко розглянемо ці твердження:

Якщо на якийсь сайт є багато посилань з FFA, гостьових книг або на сайтів іншої тематики, то PageRank буде занижений. Не варто плутати поняття “індекс цитування” і PageRank.

При розрахунку PageRank аналіз вмісту ні сайту ні тексту посилання не проводиться, враховуються тільки загальне число посилань і їх вага, тому ніяких штрафних санкцій за наявності посилань з «неправильних» сторінок не застосовується.

Якщо домогтися високого PageRank для якоїсь сторінки, то ця сторінка буде на першому місці в результатах пошуку. Не вірно, з тієї причини, що PageRank є не основним критерієм для ранжирування сторінок, а допоміжним. В іншому випадку, на перших сторінках по дуже багатьом запитам розташовувалися б тільки рейтинги і топи. Тільки при інших рівних умовах сторінка з більш високим PageRank буде розташовуватися вище в результатах пошуку.

 Якщо зареєструвати сайт у всіх популярних каталогах, то PageRank буде дуже високим Не варто спокушатися – PageRank обчислюється не для сайту цілком, а для окремо взятої сторінки. Тому посилання з глибокої піддірікторіі, скажімо в Yahoo, може бути менш цінним ніж сторінка Васі Пупкіна. Так що, тут можна взяти не якістю посилань, а їх кількістю.

Треба тільки звертати увагу на те, щоб посилання з каталогу йшли безпосередньо на ваш сайт, а не через cgi-скрипт, інакше вони просто не будуть враховуватися. Крім того, правила багатьох каталогах вимагають розміщення кореневої сторінки, а не того документа, PageRank якого ви збираєтеся підвищувати.

Тому набагато ефективніше можна підвищити PageRank конкретної сторінки посиланням з кореневою сторінки свого власного сайту. PageRank зменшується при проставленні зовнішніх посилань Вельми спірне твердження, як говорилося вище PageRank знижується в разі симетричного об’єднання посилань, ймовірність отримати яке при проставленні зовнішнього посилання мізерно мала. Якщо таку фобію в собі не перебороти, то можна дати пораду завести спеціальну сторінку для обміну посиланнями.

До речі, варто зауважити, що при розрахунку PageRank ніхто не обіцяв розділяти посилання на зовнішні і внутрішні.