PageRank

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук
Принцип роботи для невеликої мережі

PageRank — алгоритм оцінки значимості веб-сторінок за допомогою розв'язання систем лінійних рівнянь. Замість прямого підрахунку кількості посилань PageRank інтерпретує посилання сторінки A на сторінку Б як голос сторінки A на користь сторінки Б. Після цього PageRank оцінює рейтинг сторінки відповідно до кількості отриманих голосів.

PageRank також враховує значимість кожної сторінки, що отримала голос, адже голоси деяких сторінок є важливішими, і відповідно до цього підвищується значущість сторінки, посилання на яку вони містять. Важливі сторінки отримують більш високу оцінку PageRank і відображаються на перших позиціях результатів пошуку. Для визначення значущості сторінки технологія Google використовує колективний інтелект всесвітньої мережі. Людина не бере участі в обробці результатів. Пошукова система Google не спотворює інформацію про позиції платою за результати пошуку.

Найбільший пейджранк серед українських ресурсів має Українська Вікіпедія, у якої він дорівнює 8, а також Українська правда та Газета День — по 7.

За основу PageRank був обраний академічний підхід оцінки важливості публікації автора по числу її згадок в бібліографічнихпосиланнях інших авторів. Для адаптації до застосування в Інтернет в алгоритм були внесені наступні зміни: вага кожного посилання враховується індивідуально і нормується за кількістю посилань на сторінці. Крім того, PageRank може бути інтерпретовано в термінах випадкового блукання.

Обчислення PageRank[ред.ред. код]

Уявіть собі ідеального веб-серфера, який переміщається по всесвітній павутині. Нехай серфер відвідує сторінку p, випадкове блукання при цьому знаходиться в стані p. На кожному кроці, веб-серфер або перестрибує на іншу сторінку в мережі, обрану псевдо-випадковим чином, або він слід за посиланням на поточній сторінці, при цьому не повертаючись і не відвідуючи одну і ту ж сторінку двічі. Імовірність випадкового стрибка позначимо як d тоді ймовірність переходу за посиланням буде 1-d. Таким чином, вірогідність знаходження користувача на сторінці p можна обчислити за такою формулою: де R (p) — PageRank сторінки, С (p) — число посилань на сторінці, к — число посилаються на p сторінок, d-коефіцієнт загасання (damping factor), зазвичай 0.1.

Якщо масштабувати PageRank таким чином, що де N — число всіх сторінок, для яких проводиться розрахунок PageRank, то R (p) можна розглядати як розподіл ймовірності по всіх сторінках. Для обчислення PageRank складається матриця M розміром NxN, де кожному елементу mij матриці присвоюється значення R0 (p) = 1 / C (p) в тому випадку, якщо з i-ї сторінки є посилання на j-ую, що все залишилися елементи матриці заповнюються нулями . Таким чином, обчислення PageRank зводиться до відшукання власного вектора матриці M що досягається множенням матриці M на вектор Rj на кожному кроці ітерації. Введення коефіцієнта загасання гарантує, що процес сходиться. Підвищуємо значимість сайту Усвідомивши переможну ходу PageRank, не можна не задуматися про його збільшення для своєї сторінки. Інтуїтивно зрозуміло, що чим авторитетніший ресурс, на якому розміщено посилання тим більше вона збільшує PageRank сторінки, на яку посилається. І навпаки, чим більше посилань на сторінці, тим менше буде її внесок у підвищення PageRank вашої сторінки — ще один доказ марності участі в FFA (Free For All — сайти, що містять набір посилань з вільним додаванням). Менш очевидна оптимальна топологія взаємно ссилающихся сторінок. Наприклад, сторінки організовані в «кільце» (коли кожна сторінка посилається на сусіда зліва і справа, остання посилається на першу, а перша на останню) будуть мати один і той же PageRank не залежно від кількості сторінок в кільці (якщо не проводити масштабування по сумі, то PageRank у всіх буде дорівнює 1).

Те ж справедливо для «зірок» або випадку, коли всі посилаються на всіх, і, ймовірно, це твердження справедливо взагалі для всіх симетричних топологій. Набагато більш перспективні з точки зору збільшення PageRank асиметричні топології. Твердження про марність створення «порожніх» (але посилаються один на одного) сайтів у безкоштовних хостерів не настільки очевидно. Наприклад, можна організувати обмін посиланнями на 5 сайтах таким чином, що в одного з них PageRank буде в 15 разів більше, ніж мінімальний не нульовий PageRank. У цьому нескладно переконатися, написавши невелику програмку. Деякі поширені помилки пов'язані з PageRank. Проаналізувавши повідомлення в форумах, присвячених позиціонуванню в пошукових системах, можна виділити цілий ряд тверджень про PageRank, як мінімум спірних, а часто просто невірних.

Застосування Page Rank в пошуковиках[ред.ред. код]

Традиційні способи знаходження релевантних сторінок, у разі односкладових запитів не дають задовільних результатів, тому що попопулярних тем (наприклад «реферати», «робота») завжди знайдеться велика кількість сторінок з однаковою релевантністю. Для того, щоб якось впорядкувати такі сторінки, пошуковики пускаються на різні хитрощі[1].

Наприклад, видають першими ті сторінки, які мають велику відвідуваність (Rambler) або які присутні в каталозі (Yandex, Aport). В Google для цих цілей застосовується PageRank, що дає приголомшливі результати, і за короткий час Google став займати лідируючі позиції не тільки за обсягом бази, але і за якістю пошуку.

На ряду з впорядкуванням результатів пошуку по PageRank, є і інше застосування для цієї технології. Справа в тому, що число сторінок в Інтернеті настільки велика, що пошуковики вже не можуть собі дозволити індексувати все підряд. А оскільки PageRank служить критерієм цінності сторінки, то логічно проводити індексацію сторінок в порядку зменшення PageRank. В Google пішли навіть далі: тепер простої відправки форми для реєстрації не достатньо, — для того, щоб сайт був проіндексований необхідна наявність хоча б одного зовнішнього посилання.

Взаємозв'язок ТІЦ та Page Rank[ред.ред. код]

Індекс цитування [1](або ІЦ) — прийнята в науковому світі міра «значущості» праць якого-небудь ученого. Величина індексу визначається кількістю посилань на цю працю (або прізвище) в інших джерелах. Проте для дійсно точного визначення значущості наукових праць важлива не тільки кількість посилань на них, але й якість цих посилань. Так, на роботу може посилатися авторитетне академічне видання, популярна брошура або розважальний журнал. Значущість у таких посилань різна.

Наш тематичний індекс цитування (тІЦ) http://archive.nbuv.gov.ua/portal/natural/vnulp/Komp-nauky/2012_732/57.pdf визначає «авторитетність» інтернет-ресурсів з урахуванням якісної характеристики посилань на них з інших сайтів. Цю якісну характеристику ми називаємо «вагою» посилання. Розраховується вона за спеціально розробленим алгоритмом. Велику роль відіграє тематична близькість ресурсу та сайтів, які на нього посилаються. Сама по собі кількість посилань на ресурс також впливає на значення його тІЦ, але тІЦ визначається не кількістю посилань, а сумою їх ваги.

тІЦ як засіб визначення авторитетності ресурсів покликаний забезпечити релевантність розташування ресурсів у рубриках каталогу Яндекса. тІЦ не є суто кількісною характеристикою, тому ми показуємо певні заокруглені значення, які допомагають орієнтуватися в «значущості» («авторитетності») ресурсів у кожній галузі (темі). Ідея індексу цитування проста — як правило, люди, які створюють свій сайт в інтернеті, з увагою та відповідальністю ставляться до його змісту, а також до змісту того, на що вони посилаються і що таким чином рекомендують своїм відвідувачам. Наш тематичний індекс враховує кількість посилань на сайт з інших сайтів, надаючи цим посиланням різної «ваги» (тобто значущості) залежно від авторитетності сайту, що посилається. Показники ТІЦ і PR відіграють велику роль для оптимізатора, що прагне забезпечити ресурсу дійсну авторитетність на просторах Мережі.

Джерела[ред.ред. код]

  • Блажнов Є. А. Public Relations. Запрошення у світ цивілізованих ринкових і суспільних відносин. — М: Спадщина, 1999
  • Броннікова Т. С., Чернявський А. Г.. Маркетинг. — М.: ЮНИТИ, 2001
  • Ігнатьєв Д., Бекетов А., Сарокваша Ф.. Настільна енциклопедія Public Relations. — СПб: Питер, 1999
  • Глухів В. В. Основи маркетингу. — СПб: Видавництво «Спеціальна література», 2001
  • Завгородня О. В., Ямпільська Д.О
  • Що таке Google Page Rank?
  • Google: огляд технологій

Посилання[ред.ред. код]


Інтернет Це незавершена стаття про Інтернет.
Ви можете допомогти проекту, виправивши або дописавши її.
  1. http://www.yur-gazeta.com/article/1551/