Користувач:Дядько Ігор/Про відвідування

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Я спробував проаналізувати структуру відвідування на основі вибірки 2013. Результати не дуже добрі, оскільки більше половини відвідування забезпечує менше 3% статей, які у вибірку потрапляють дуже нечасто. Серед інших статей існує два піки в функції розподілу: при малих значеннях відвідування 10-30 на місяць та в районі від 70 до 150 кліків на місяць. Перший пік зумовлений в основному клацанням на випадкову статтю та кролерами. Сюди потрапляє більшість статей, але їх внесок у загальне відвідування менший, ніж 20%. Другий пік цікавий. Ще цікавіший провал між першим і другим.

Виходить так: якщо до статті є невеличкий інтерес, то цей інтерес приблизно на 100 кліків на місяць. А на 50, наче, не буває.

Якщо припустити розподіл Пуассона:

,

і функцію цікавості , то ймовіність перегляду статті k разів буде:

.

Якщо ми маємо експериментальні дані , то можна шукати невідому функцію . Звісно, краще взяти дані за коротший час, бо розподіл Пуассона не дуже зручний для великих .

Робоча гіпотеза пояснення: запити приходять із гугла. Якщо в назви є семантичне значення, то ймовірність більша.