Частотний словник

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до: навігація, пошук

Частотний словник — словник, у якому кожне слово характеризується певним числом, що вказує на кількість вживань цього слова в обстеженому масиві текстів, тобто на його абсолютну частоту в цих текстах. У багатьох словниках частота кожного слова в обстежених текстах оцінюється статистично: обраховується відносна похибка, коефіцієнт стабільності чи інші статистичні показники.

Історія укладання частотних словників налічує менше століття. За цей порівняно невеликий час такі словники створено майже для всіх індоєвропейських мов, а також для мов інших сімей. Уже видано понад 400 частотних словників, а кількість тих, над якими ведеться робота, значно більша.

Інтерес до статистичного обстеження великих сукупностей текстів зумовлюється, з одного боку, внутрішньою логікою розвитку мовознавства, необхідністю глибше проникнути в закони функціонування мовних одиниць у мовленні, з другого — практичними застосуваннями надбань мовознавства, потребами суспільства.

Навіть просте спостереження над текстом показує, що слова щодо їхньої частоти вживаються не однаково: одні повторюються мало не в кожному абзаці, інші — рідше, деякі — надзвичайно рідко. Для відображення цієї закономірності мовознавці користуються такими поняттями, як «поширене», «частовживане», «малопоширене», «маловживане», «непоширене», «рідковживане» і под. Проте ці поняття не можуть дати уявлення про науково обгрунтовану міру вживаності слів, про сфери їх переважного використання, про істотні відмінності у вживанні слів чи груп слів у стильових різновидах текстів. Розкрити всі ці закономірності функціонування лексики (чи інших одиниць мови) можна лише за допомогою статистичних методів. Саме тому вони набули такого широкого застосування у мовознавчих дослідженнях за останні десятиліття.

Без статистичних обстежень великих масивів текстів, що належать до різних функціональних стилів і жанрів, не можна було б виявити хоча б такі закономірності, як обмеженість реєстру слів у будь-якому тексті чи масиві текстів, закон переваги, за яким невелика кількість мовних одиниць вживається дуже часто, а решта — з невеликою частотою. Зараз встановлено багато статистичних закономірностей та параметрів, які показують функціонування лексики в різножанрових текстах. Всі вони знайшли практичні застосування, такі, як відбір лексичного мінімуму при вивченні іноземних мов, створення ефективних систем стенографії, атрибуція непідписаних рукописів, створення економних алгоритмів кодування текстів для ЕОМ, а також систем машинного опрацювання текстів — машинний переклад, інформаційний пошук, автоматичне реферування й анотування літератури. Практичні потреби статистичного обстеження текстів для опрацювання їх на ЕОМ набувають особливо великої ваги в період науково-технічної революції. Тому якщо перші частотні словники створювалися з метою вдосконалення систем стенографії та для відбору лексичного мінімуму, то в наші дні частотні словники створюються в основному для потреб інформаційного пошуку та машинного перекладу.

Велику цінність мають частотні словники з окремих жанрів. Вивчені міри їхньої схожості і характеру статистичного розподілення дає цікаві відомості про якісне розшарування лексики в залежності від сфери вживання. Питання систематизації словникового складу пов'язані з розмежуванням в ньому активного і пасивного запасу, що в свою чергу потребує диференційного підходу до усної та пасивної мови, віковим, професійним та освітнім категорія носіїв мови.

Частотні словники української мови[ред.ред. код]

Див. також[ред.ред. код]


Мовознавство Це незавершена стаття з мовознавства.
Ви можете допомогти проекту, виправивши або дописавши її.