Аналіз цитування

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку

Аналіз цитування — це вивчення частоти, шаблонів та графіків цитат у документах. Він використовує шаблон цитат, посилання з одного документа на інший документ, щоб виявити властивості документів. Типовою метою буде визначення найбільш важливих документів у збірці. Класичний приклад — цитата між академічними статтями та книгами.[1][2] Судові рішення з метою підтвердження своїх рішень, посилаються на рішення, винесені у попередніх справах, тому аналіз цитування у юридичному контексті є важливим. Іншим прикладом є патенти, що містять попередні винаходи, цитовані раніше патенти, що стосуються поточної претензії.

Документи можуть бути пов'язані з багатьма іншими особливостями окрім цитат, такими як автори, видавці, журнали, а також їх фактичні тексти. Загальний аналіз збірок документів називається бібліометрією, а аналіз цитування — ключова частина цього напряму. Наприклад, бібліографічне зчеплення[en] та спільне застосування є асоційованими метриками, що засновані на аналізі цитування (загальні цитати або загальні посилання). Цитати у збірнику документів також можуть бути представлені у вигляді таких графіків цитування, як зазначив Дерек де Солла Прайс[en] у статті 1965 року «Мережі наукових праць».[3] Це означає, що аналіз цитування спирається на аспекти аналізу соціальних мереж[en] та науки про мережі[en].

Раннім прикладом автоматичної індексації цитат був CiteSeer, який використовувався для цитат між науковими доповідями, а Google Scholar є прикладом сучасної системи, яка включає в себе більше, ніж просто академічні книги та статті, та відображає більш широке коло інформаційних джерел. Сьогодні автоматизована індексація цитування[4] змінила характер дослідження аналізу цитування, дозволяючи проаналізувати мільйони цитат для широкомасштабних моделей та відкриття знань. Інструменти аналізу цитування можуть бути використані вченими для обчислення різних ступенів впливу на основі даних з індексів цитування.[5][6][7] Вони мають різноманітні додатки, починаючи від ідентифікації експертних суддів для розгляду документів та пропозицій щодо надання грантів, для надання прозорих даних у підтримку рішень про оцінку академічних переваг, перебування на посаді та прийняття рішень. Цей конкурс на обмежені ресурси може призвести до етичної сумнівної поведінки для збільшення цитат.[8][9]

Практика наївного використання цитатних аналізів для порівняння впливу різних наукових статей без урахування інших чинників, які можуть впливати на моделі цитування, була сильно розкритикована.[10] Серед цих критичних зауважень одне постійно фокусується на «незалежності від галузі», а саме на тому факті, що практика цитування в одній галузі науки відрізняється від практики в іншій та навіть між галузями досліджень в рамках дисципліни.[11]

Огляд[ред. | ред. код]

Хоча індекси цитування спочатку були розроблені для пошуку інформації, вони все частіше використовуються для бібліометричних досліджень та інших досліджень, що включають оцінку досліджень. Дані цитування також є основою коефіцієнту впливовості популярного журналу.

Існує велика кількість літератури з аналізу цитування, яка іноді називається наукометрія, термін, винайдений Василем Налімовим[en], або, зокрема, бібліометрикою. Галузь почала розквітати з появою Science Citation Index, який охоплює літературу, що була видана з 1900 року. Провідні журнали галузі - це Наукометрія, Інформатика, а також Журнал Американського товариства інформатики та технологій[en]. Останній також організовує електронний список розсилки під назвою Сигметрика в АТІТ.[12] Цей метод відроджується на основі широкого розповсюдження баз даних підписки на Web Science та Scopus у багатьох університетах та загальнодоступних інструментах вільного цитування, таких як CiteBase, CiteSeerX, Google Scholar та колишньої програми Windows Live Academic[en] (тепер доступна з додатковими функціями, такими як Microsoft Academic Search). Методи дослідження аналізу цитування включають якісні, кількісні та обчислювальні підходи. Основними очагами таких наукометричних досліджень були порівняльний аналіз продуктивності, рейтинги інституційних досліджень, класифікація журналів[13] щодо встановлення факторів продуктивності та стандартів володіння,[14] оцінка впливу вищих наукових статей,[15] відстеження траєкторії розвитку науки або технологічної галузі[16] та розробка профілів провідних авторів та установ з точки зору результатів досліджень.[17]

Аналіз юридичного цитування — це метод аналізу цитат для аналізу правових документів, що дозволяє полегшити розуміння пов'язаних між собою нормативних документів згод шляхом вивчення цитат, які пов'язують положення з іншими положеннями в одному документі або між різними документами. Аналіз правового цитування використовує графік цитування, взятий з нормативного документа, який може доповнити електронне відкриття — процес, який впливає на технологічні нововведення в аналітиці великих даних.[18][19][20][21]

Історія[ред. | ред. код]

У документі 1965 року Дерек де Солла Прайс[en] описував притаманну властивість зв'язування SCI як «мережі наукових статей».[3] Зв'язки між цитуванням та цитованими статтями стали динамічними, коли SCI почав публікуватись в Інтернеті. Індекс цитування соціальних наук[en] став одним з перших баз даних, що були встановлені в системі Dialog[en][22] в 1972 році. З появою компакт-дисків посилання стало ще простішим і дозволило використовувати бібліографічне зчеплення[en] для пошуку відповідних записів. У 1973 році Генрі Смолл опублікував свою класичну роботу з аналізу спів-цитування, яка стала самоорганізованою класифікаційною системою, яка призвела до експериментів з кластеризації документів і з часом до «Atlas of Science», який пізніше став називатися «Research Reviews».

Притаманний топологічний та графічний характер всесвітньої мережі цитування, який є властивим науковій літературі, був описан Ральфом Гарнером (Університет Дрекселя) в 1965 році.[23]

Використання оцінок цитат у рангових журналах було методом, що використовувався в першій половині ХIХ століття, але систематичне постійне вимірювання цих підрахунків для наукових журналів було ініційовано Євгеном Гарфілдом в Інституті наукової інформації, який також став першоджерелом для використання цих підрахунків для оцінки авторів та статей. У знаковому документі 1965 року він та Ірвінг Шер показали співвідношення між частотою та ростом цитування, демонструючи, що лауреати Нобелівської премії у середньому публікували свої статті п'ять разів, тоді як їхні роботи були цитовані в середньому 30-50 разів. Гарфілд повідомив про це явище у довгій серії есе про Нобелівську та інші премії. Звичайна підсумкова оцінка відома як коефіцієнт впливовості, кількість цитат до журналу за попередні два роки, поділена на кількість статей, опублікованих у ті роки. Вона широко використовується як для звичайних, так і для надзвичайних цілей, зокрема, застосування її для оцінки авторів та документів є досить суперечливим.

На ранньому дослідженні в 1964 році з використанням аналізу цитування при написанні історії ДНК Гарфілд і Шер продемонстрували потенціал для створення історіографії, топологічних мап найважливіших кроків в історії наукових тем. Ця робота була пізніше автоматизована Е. Гарфілдом, А. І. Пудовкиним з Інституту морської біології НАН і В. С. Істоміним з Центру викладання, навчання та технологій, Вашингтонського державного університету та привела до створення програмного забезпечення HistCite[en][24] близько 2002 року.

Автоматичне індексування цитування було введене в 1998 році Лі Джайлсом[en], Стівом Лоуренсом[en] і Куртом Боллакером[en][25] і дозволило автоматично алгоритмічно вилучати та групувати цитати для будь-якого цифрового академічного та наукового документа. Якщо попереднє вилучення цитат було ручним процесом, міри цитування тепер можуть збільшуватись і обчислюватися для будь-яких наукових галузей та місць проведення документів, а не лише тих, що виділяються такими організаціями, як ISI. Це призвело до створення нових систем для індексації публічної та автоматичної цитат, перша з яких була CiteSeer (тепер CiteSeerX, незабаром наслідувана системою Cora, яка зосереджувалася в першу чергу на галузі комп'ютерних наук та інформатики. Пізніше були створені великі академічні системи доменних імен, такі як Google Scholar та Microsoft Academic. Така автономна індексація цитування ще не була досконалою у процесі вилучення цитат або цитування з кластеризацією з частотою помилок, яка оцінюється десь на рівні 10 %, хоча ретельна статистична вибірка ще не зроблена. Такі автори, як Енн Арбор, Мілтон Кейнс та Уолтон Холл[en] отримали величезну кількість академічних результатів.[26] SCI стверджує, що створює автоматичне індексування цитування через чисто програмні методи. Навіть старші записи мають однакову похибку.

Аналіз цитування для юридичних документів[ред. | ред. код]

Аналіз цитат для юридичних документів — це підхід, який допомагає зрозуміти та проаналізувати взаємозв'язані нормативні документи, шляхом вивчення цитат, які пов'язують положення з іншими положеннями в рамках одного документа або між різними документами. Аналіз цитування використовує граф цитування[en], отриманий з нормативного документа, який міг би доповнити електронне відкриття — процес, який впливає на технологічні нововведення у аналітиці великих даних.[20][21][27]

Критика[ред. | ред. код]

Електронне видання. Внаслідок безпрецедентного збільшення доступності електронного ресурсу, одним із питань, що зараз вивчаються, є як часто в Інтернеті цитуються електронні ресурси у моїй галузі?».[28] Наприклад, існують твердження, що онлайн доступ до літератури з інформатики призводить до підвищення коефіцієнтів цитування,[29] проте гуманітарні статті можуть постраждати, якщо їх немає в друкованому вигляді.

Само-цитати. Великої критики зазнав той факт, що автори граються з системою шляхом накопичення цитат, цитуючи себе надмірно.[30] Наприклад, було встановлено, що чоловіки цитують себе частіше, ніж жінки.[31]

Див. також[ред. | ред. код]

Примітки[ред. | ред. код]

  1. Rubin, Richard (2010). Foundations of library and information science (вид. 3rd). New York: Neal-Schuman Publishers. ISBN 978-1-55570-690-6. 
  2. Garfield, E. Citation Indexing — Its Theory and Application in Science, Technology and Humanities Philadelphia: ISI Press, 1983.
  3. а б Derek J. de Solla Price (July 30, 1965). Networks of Scientific Papers (PDF). Science 149 (3683): 510–515. Bibcode:1965Sci...149..510D. PMID 14325149. doi:10.1126/science.149.3683.510. 
  4. Giles, C. Lee; Bollacker, Kurt D.; Lawrence, Steve (1998). CiteSeer: an automatic citation indexing system.. Digital libraries 98 : the Third ACM Conference on Digital Libraries, June 23–26, 1998, Pittsburgh, PA (New York: Association for Computing Machinery): 89–98. ISBN 0-89791-965-3. doi:10.1145/276675.276685. Процитовано July 7, 2011. 
  5. Examples include subscription-based tools based on proprietary data, such as Web of Science and Scopus, and free tools based on open data, such as Scholarometer by Filippo Menczer and his team.
  6. Kaur, Jasleen; Diep Thi Hoang; Xiaoling Sun; Lino Possamai; Mohsen JafariAsbagh; Snehal Patil; Filippo Menczer (2012). Scholarometer: A Social Framework for Analyzing Impact across Disciplines. PLoS ONE 7 (9): e43235. Bibcode:2012PLoSO...743235K. PMC 3440403. PMID 22984414. doi:10.1371/journal.pone.0043235. 
  7. Hoang, D.; Kaur, J.; Menczer, F. (2010). Crowdsourcing Scholarly Data. Proceedings of the WebSci10: Extending the Frontiers of Society On-Line, April 26-27th, 2010, Raleigh, NC: US. Архів оригіналу за 17 квітень 2015. Процитовано 9 січень 2018. 
  8. Anderson, M.S. van; Ronning, E.A. van; de Vries, R.; Martison, B.C. (2007). The perverse effects of competition on scientists’ work and relationship. Science and Engineering Ethics 4 (13): 437–461. doi:10.1007/s11948-007-9042-5. 
  9. Wesel, M. van (2016). Evaluation by Citation: Trends in Publication Behavior, Evaluation Criteria, and the Strive for High Impact Publications. Science and Engineering Ethics 22 (1): 199–225. PMC 4750571. PMID 25742806. doi:10.1007/s11948-015-9638-0. 
  10. Bornmann, L.; Daniel, H. D. (2008). What do citation counts measure? A review of studies on citing behavior. Journal of Documentation 64 (1): 45–80. doi:10.1108/00220410810844150. 
  11. Anauati, Maria Victoria and Galiani, Sebastian and Gálvez, Ramiro H., Quantifying the Life Cycle of Scholarly Articles Across Fields of Economic Research (November 11, 2014). Available at SSRN: http://ssrn.com/abstract=2523078
  12. The American Society for Information Science & Technology. The Information Society for the Information Age. Процитовано 2006-05-21. 
  13. Lowry, Paul Benjamin; Moody, Gregory D.; Gaskin, James; Galletta, Dennis F.; Humpherys, Sean; Barlow, Jordan B.; and Wilson, David W. (2013). "Evaluating journal quality and the Association for Information Systems (AIS) Senior Scholars’ journal basket via bibliometric measures: Do expert journal assessments add value?, MIS Quarterly (MISQ), vol. 37(4), 993—1012. Also, see YouTube video narrative of this paper at: https://www.youtube.com/watch?v=LZQIDkA-ke0&feature=youtu.be.
  14. Dean, Douglas L; Lowry, Paul Benjamin; and Humpherys, Sean (2011). Profiling the research productivity of tenured information systems faculty at U.S. institutions, MIS Quarterly (MISQ), vol. 35(1), pp. 1–15 (ISSN 0276-7783).
  15. Karuga, Gilbert G.; Lowry, Paul Benjamin; and Richardson, Vernon J. (2007).Assessing the impact of premier information systems research over time, Communications of the Association for Information Systems, vol. 19(7), pp. 115—131 (http://aisel.aisnet.org/cais/vol19/iss1/7)
  16. Liu, John S.; Lu, Louis Y.Y. (2012-03-01). An integrated approach for main path analysis: Development of the Hirsch index as an example. Journal of the American Society for Information Science and Technology (en) 63 (3): 528–542. ISSN 1532-2890. doi:10.1002/asi.21692. 
  17. Lowry, Paul Benjamin; Karuga, Gilbert G.; and Richardson, Vernon J. (2007). Assessing leading institutions, faculty, and articles in premier information systems research journals, Communications of the Association for Information Systems, vol. 20(16), pp. 142—203 (http://aisel.aisnet.org/cais/vol20/iss1/16).
  18. http://ieeexplore.ieee.org/search/wrapper.jsp?arnumber=5070630&tag=1. Процитовано November 29, 2009.  Пропущений або порожній |title= (довідка)[недоступне посилання з 01.05.2016]
  19. Mohammad Hamdaqa and A. Hamou-Lhadj, «Citation Analysis: An Approach for Facilitating the Understanding and the Analysis of Regulatory Compliance Documents», In Proc. of the 6th International Conference on Information Technology, Las Vegas, USA
  20. а б E-Discovery Special Report: The Rising Tide of Nonlinear Review. Hudson Global. Архів оригіналу за 3 July 2012. Процитовано 1 July 2012.  by Cat Casey and Alejandra Perez
  21. а б What Technology-Assisted Electronic Discovery Teaches Us About The Role Of Humans In Technology - Re-Humanizing Technology-Assisted Review. Forbes. Процитовано 1 July 2012. 
  22. Dialog, A Thomson Business. "Dialog invented online information services". Процитовано 2006-05-21. 
  23. http://www.garfield.library.upenn.edu/rgarner.pdf
  24. Eugene Garfield; A. I. Pudovkin; V. S. Istomin (2002). Algorithmic Citation-Linked Historiography—Mapping the Literature of Science. Presented the ASIS&T 2002: Information, Connections and Community. 65th Annual Meeting of ASIST in Philadelphia, PA. November 18–21, 2002. Процитовано 2006-05-21. 
  25. C.L. Giles, K. Bollacker, S. Lawrence, "CiteSeer: An Automatic Citation Indexing System, « DL'98 Digital Libraries, 3rd ACM Conference on Digital Libraries, pp. 89-98, 1998.
  26. Postellon DC (March 2008). Hall and Keynes join Arbor in the citation indexes. Nature 452 (7185): 282. Bibcode:2008Natur.452..282P. PMID 18354457. doi:10.1038/452282b. 
  27. Hamdaqa, M.; A Hamou-Lhadj (2009). Citation Analysis: An Approach for Facilitating the Understanding and the Analysis of Regulatory Compliance Documents. 2009 Sixth International Conference on Information Technology: New Generations. Las Vegas, NV: IEEE. с. 278–283. ISBN 978-1-4244-3770-2. doi:10.1109/ITNG.2009.161. 
  28. Zhao, Lisa. «How Librarian Used E-Resources--An Analysis of Citations in CCQ.» Cataloging & Classification Quarterly 42(1) (2006): 117—131.
  29. Lawrence, Steve. Free online availability substantially increases a paper's impact. Nature volume 411 (number 6837) (2001): 521. Also online at http://citeseer.ist.psu.edu/online-nature01/
  30. Gálvez RH (March 2017). Assessing author self-citation as a mechanism of relevant knowledge diffusion. Scientometrics 111 (3): 1801. doi:10.1007/s11192-017-2330-1. 
  31. Singh Chawla, Dalmeet (5 July 2016). Men cite themselves more than women do. Nature. Nature. Процитовано 7 July 2016.