Wayback Machine: відмінності між версіями

Матеріал з Вікіпедії — вільної енциклопедії.
Перейти до навігації Перейти до пошуку
[перевірена версія][перевірена версія]
Вилучено вміст Додано вміст
оформлення
оформлення
Рядок 23: Рядок 23:
Wayback Machine почала архівувати [[кеш]]овані веб-сторінки 1996 року, з метою зробити послугу доступною громадськості п'ять років по тому.<ref name="IA: Wayback">{{Cite web|url=https://archive.org/web/|title=Internet Archive: Wayback Machine|website=archive.org|language=en|accessdate=October 15, 2018|archiveurl=https://web.archive.org/web/20140103004344/http://archive.org/web/|archivedate=January 3, 2014|deadurl=no}}</ref> Від 1996 до 2001 року інформація зберігалася на цифрових плівках, а Кале зрідка дозволяв дослідникам і дослідникам і науковцям підключатися до громіздкої бази даних.<ref>{{Cite news|last=Cook|first=John|title=Web site takes you way back in Internet history|url=http://www.seattlepi.com/news/article/Web-site-takes-you-way-back-in-Internet-history-1070534.php|accessdate=August 15, 2011|work=Seattle Post-Intelligencer|date=November 1, 2001|deadurl=no|archiveurl=https://web.archive.org/web/20140812205508/http://www.seattlepi.com/news/article/Web-site-takes-you-way-back-in-Internet-history-1070534.php|archivedate=August 12, 2014}}</ref> 2001 року, коли архівові виповнилося п'ять років, його відкрили для публіки на церемонії в [[Університет Каліфорнії (Берклі)|Університеті Каліфорнії]] (Берклі).<ref>{{Cite journal}}</ref> До часу запуску Wayback Machine вона вже містила понад 10 мільярдів архівних сторінок.<ref name="Arora (2015)">{{Cite journal}}</ref>
Wayback Machine почала архівувати [[кеш]]овані веб-сторінки 1996 року, з метою зробити послугу доступною громадськості п'ять років по тому.<ref name="IA: Wayback">{{Cite web|url=https://archive.org/web/|title=Internet Archive: Wayback Machine|website=archive.org|language=en|accessdate=October 15, 2018|archiveurl=https://web.archive.org/web/20140103004344/http://archive.org/web/|archivedate=January 3, 2014|deadurl=no}}</ref> Від 1996 до 2001 року інформація зберігалася на цифрових плівках, а Кале зрідка дозволяв дослідникам і дослідникам і науковцям підключатися до громіздкої бази даних.<ref>{{Cite news|last=Cook|first=John|title=Web site takes you way back in Internet history|url=http://www.seattlepi.com/news/article/Web-site-takes-you-way-back-in-Internet-history-1070534.php|accessdate=August 15, 2011|work=Seattle Post-Intelligencer|date=November 1, 2001|deadurl=no|archiveurl=https://web.archive.org/web/20140812205508/http://www.seattlepi.com/news/article/Web-site-takes-you-way-back-in-Internet-history-1070534.php|archivedate=August 12, 2014}}</ref> 2001 року, коли архівові виповнилося п'ять років, його відкрили для публіки на церемонії в [[Університет Каліфорнії (Берклі)|Університеті Каліфорнії]] (Берклі).<ref>{{Cite journal}}</ref> До часу запуску Wayback Machine вона вже містила понад 10 мільярдів архівних сторінок.<ref name="Arora (2015)">{{Cite journal}}</ref>


Нині дані зберігаються на великому кластері вузлів [[Linux]] Інтернет-архіву.<ref name=":0">{{Cite web|url=https://blog.archive.org/2016/10/25/20000-hard-drives-on-a-mission/|title=20,000 Hard Drives on a Mission {{!}} Internet Archive Blogs|website=blog.archive.org|language=en-US|accessdate=October 15, 2018|archiveurl=https://web.archive.org/web/20181020153727/https://blog.archive.org/2016/10/25/20000-hard-drives-on-a-mission/|archivedate=October 20, 2018|deadurl=no}}</ref> Він заново відвідує і архівує нові версії веб-сайтів випадково (див. технічні дані нижче).<ref name="leetaru">{{Cite web|url=https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|title=The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web|website=Forbes|last=Kalev Leetaru|date=January 28, 2016|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171016230439/https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|archivedate=October 16, 2017}}</ref> Сайти також можна архівувати вручну, вводячи його [[Уніфікований локатор ресурсів|URL-адресу]] в поле пошуку, за умови, що сайт дозволяє Wayback Machine "проковзати" по ньому і зберегти дані.<ref name="IA: Wayback">{{Cite web|url=https://archive.org/web/|title=Internet Archive: Wayback Machine|website=archive.org|language=en|accessdate=October 15, 2018|archiveurl=https://web.archive.org/web/20140103004344/http://archive.org/web/|archivedate=January 3, 2014|deadurl=no}}</ref>
Нині дані зберігаються на великому кластері вузлів [[Linux]] Інтернет-архіву.<ref name=":0">{{Cite web|url=https://blog.archive.org/2016/10/25/20000-hard-drives-on-a-mission/|title=20,000 Hard Drives on a Mission {{!}} Internet Archive Blogs|website=blog.archive.org|language=en-US|accessdate=October 15, 2018|archiveurl=https://web.archive.org/web/20181020153727/https://blog.archive.org/2016/10/25/20000-hard-drives-on-a-mission/|archivedate=October 20, 2018|deadurl=no}}</ref> Він заново відвідує і архівує нові версії веб-сайтів випадково (див. технічні дані нижче).<ref name="leetaru">{{Cite web|url=https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|title=The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web|website=Forbes|last=Kalev Leetaru|date=January 28, 2016|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171016230439/https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|archivedate=October 16, 2017}}</ref> Сайти також можна архівувати вручну, вводячи його [[Уніфікований локатор ресурсів|URL-адресу]] в поле пошуку, за умови, що сайт дозволяє Wayback Machine "проковзати" по ньому пошуковим роботом і зберегти дані.<ref name="IA: Wayback">{{Cite web|url=https://archive.org/web/|title=Internet Archive: Wayback Machine|website=archive.org|language=en|accessdate=October 15, 2018|archiveurl=https://web.archive.org/web/20140103004344/http://archive.org/web/|archivedate=January 3, 2014|deadurl=no}}</ref>


== Технічні подробиці ==
== Технічні подробиці ==
Програмне забезпечення було розроблено, щоб [[Пошуковий робот|"повзати"]] в інтернеті і завантажити всіх загальнодоступних веб-сторінках, на [[Gopher|ховраха]] ієрархії, [[Usenet|конференціях]] (Київ) дошка оголошень системи, і завантажуване програмне забезпечення.<ref name="ArchivingInternet">{{Cite web|last=Kahle|first=Brewster|title=Archiving the Internet|url=http://www.uibk.ac.at/voeb/texte/kahle.html|publisher=Scientific American – March 1997 Issue|accessdate=August 19, 2011|deadurl=no|archiveurl=https://web.archive.org/web/20120403042627/http://www.uibk.ac.at/voeb/texte/kahle.html|archivedate=April 3, 2012}}</ref> Інформація, зібрана за допомогою цих "падлюк" не включає в себе всю доступну інформацію в інтернеті, так як більша частина даних обмежений видавцем чи зберігається в базах даних, які не доступні. Для подолання протиріч в частково кешований веб-сайтів, Archive-It.org був розроблений в 2005 році в архіві інтернету Як засобу, що дозволяє установ і творцям контенту добровільно врожаю і збереження колекції цифрового контенту та створення цифрових архівів.<ref>{{Cite web|url=https://blog.archive.org/2014/10/27/archive-it-crawling-the-web-together/|title=Archive-It: Crawling the Web Together|website=Internet Archive Blogs|last=Jeff Kaplan|date=October 27, 2014|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171012212827/http://blog.archive.org/2014/10/27/archive-it-crawling-the-web-together/|archivedate=October 12, 2017}}</ref>
Програмне забезпечення розроблено, щоб [[пошуковий робот]] міг "проковзувати" по Інтернету і завантажувати всі загальнодоступні веб-сторінки, ієрархію [[Gopher]], систему дошки оголошень [[Usenet]] і завантажуване програмне забезпечення.<ref name="ArchivingInternet">{{Cite web|last=Kahle|first=Brewster|title=Archiving the Internet|url=http://www.uibk.ac.at/voeb/texte/kahle.html|publisher=Scientific American – March 1997 Issue|accessdate=August 19, 2011|deadurl=no|archiveurl=https://web.archive.org/web/20120403042627/http://www.uibk.ac.at/voeb/texte/kahle.html|archivedate=April 3, 2012}}</ref> Інформація, зібрана за допомогою цих роботів не включає всю доступну інформацію в Інтернеті, оскільки значну частину даних обмежують видавці, або вона зберігається в недоступних базах даних. Щоб подолати суперечності частково кешованих веб-сайтів, 2005 року Інтернет архів розробив Archive-It.org як засіб, що дозволяє установам і творцям контенту добровільно збирати і зберігати колекції цифрового контенту та створювати цифрові архіви.<ref>{{Cite web|url=https://blog.archive.org/2014/10/27/archive-it-crawling-the-web-together/|title=Archive-It: Crawling the Web Together|website=Internet Archive Blogs|last=Jeff Kaplan|date=October 27, 2014|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171012212827/http://blog.archive.org/2014/10/27/archive-it-crawling-the-web-together/|archivedate=October 12, 2017}}</ref>


Обходи з різних джерел, деякі імпортовані з третіх осіб та інші генерували всередині архіву.<ref name="leetaru">{{Cite web|url=https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|title=The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web|website=Forbes|last=Kalev Leetaru|date=January 28, 2016|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171016230439/https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|archivedate=October 16, 2017}}</ref> Наприклад, обходи сприяє [[Фундація Альфреда Слоуна|Слоуна]] і [[Alexa Internet|Алекса]], повзає веденні ІА від імені [[Національне управління архівів та документації|Нара]] і [[Internet Memory Foundation|інтернет пам'яті Фонду]], дзеркала з [[Common Crawl|загального обходу]].<ref name="leetaru" /> У "всесвітній павутині повзе" працює з 2010 року і захоплення глобальній павутині.<ref name=":3">{{Cite web|url=https://archive.org/details/widecrawl&tab=about|title=Worldwide Web Crawls|publisher=Internet Archive|last=|date=|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171019222740/https://archive.org/details/widecrawl%26tab%3Dabout|archivedate=October 19, 2017}}</ref><ref name="leetaru" />
Crawls надходять з різних джерел, деякі імпортуються від третіх сторін, тоді як інші генеруються всередині самого архіву.<ref name="leetaru">{{Cite web|url=https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|title=The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web|website=Forbes|last=Kalev Leetaru|date=January 28, 2016|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171016230439/https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|archivedate=October 16, 2017}}</ref> Наприклад, Crawls надходять від [[Фундація Альфреда Слоуна|Фундації Альфреда Слоуна]] і [[Alexa Internet|Alexa]], повзає веденні ІА від імені [[Національне управління архівів та документації|Національного управління архівів та документації]] та {{iw|Internet Memory Foundation||}}, дзеркал з {{iw|Common Crawl||}}.<ref name="leetaru" /> "Worldwide Web Crawls" працює з 2010 року і захоплює глобальне павутиння.<ref name=":3">{{Cite web|url=https://archive.org/details/widecrawl&tab=about|title=Worldwide Web Crawls|publisher=Internet Archive|last=|date=|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171019222740/https://archive.org/details/widecrawl%26tab%3Dabout|archivedate=October 19, 2017}}</ref><ref name="leetaru" />


Частота знімків захоплює змінюється на сайті.<ref name="leetaru">{{Cite web|url=https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|title=The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web|website=Forbes|last=Kalev Leetaru|date=January 28, 2016|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171016230439/https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|archivedate=October 16, 2017}}</ref> Сайтів в "світовій павутині повзе" включені в список "повзти", з сайту архівовані раз в обхід.<ref name="leetaru" /> Обхід може зайняти кілька місяців або навіть років, щоб завершити в залежності від розміру.<ref name="leetaru" /> Наприклад, "широкий повзти номер 13" розпочалися 9 січня 2015 року, і завершені на 11 липня 2016 року.<ref>{{Cite web|url=https://archive.org/details/wide00013?&sort=-publicdate&page=3|title=Wide Crawl Number 13|publisher=Internet Archive|last=|date=|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171019223332/https://archive.org/details/wide00013?&sort=-publicdate&page=3|archivedate=October 19, 2017}}</ref> Однак, причин може бути кілька обходів триває в будь-який час, і сайт може бути включений більш ніж в один список повзати, так як часто ділянці обходу широко варіюється.<ref name="leetaru">{{Cite web|url=https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|title=The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web|website=Forbes|last=Kalev Leetaru|date=January 28, 2016|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171016230439/https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|archivedate=October 16, 2017}}</ref>
Частота захоплень для зберігання змінюється в залежності від сайту.<ref name="leetaru">{{Cite web|url=https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|title=The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web|website=Forbes|last=Kalev Leetaru|date=January 28, 2016|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171016230439/https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|archivedate=October 16, 2017}}</ref> Сайти у "Worldwide Web Crawls" включені в "crawl list", один сайт архівується раз за обхід.<ref name="leetaru" /> Обхід може тривати кілька місяців або навіть років у залежності від розміру.<ref name="leetaru" /> Наприклад, "Wide Crawl Number 13" розпочався 9 січня 2015 року й завершився 11 липня 2016 року.<ref>{{Cite web|url=https://archive.org/details/wide00013?&sort=-publicdate&page=3|title=Wide Crawl Number 13|publisher=Internet Archive|last=|date=|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171019223332/https://archive.org/details/wide00013?&sort=-publicdate&page=3|archivedate=October 19, 2017}}</ref> Однак, в один і той самий момент може проходити кілька обходів, і сайт може бути включений у понад один crawl list, тож частота обходу сайтів змінюється в широких межах.<ref name="leetaru">{{Cite web|url=https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|title=The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web|website=Forbes|last=Kalev Leetaru|date=January 28, 2016|accessdate=October 16, 2017|deadurl=no|archiveurl=https://web.archive.org/web/20171016230439/https://www.forbes.com/sites/kalevleetaru/2016/01/18/the-internet-archive-turns-20-a-behind-the-scenes-look-at-archiving-the-web/#222f2e5682e0|archivedate=October 16, 2017}}</ref>


=== Ємність для зберігання і зростання ===
=== Місткість сховища і зростання ===
Оскільки технологія розвивалася протягом багатьох років, ємність машина Wayback виріс. У 2003 році, через два роки публічного доступу, машина Wayback зростало зі швидкістю 12 терабайт в місяць. Дані зберігаються на [[PetaBox]] системи шафи користувальницькі розроблений інтернет-архіві співробітників. Перші стійки 100ТВ була повністю введена в дію в червні 2004 року, хоча незабаром стало ясно, що їх потрібно значно більше місця, ніж це.<ref>{{Cite web|url=https://archive.org/web/petabox.php|title=Internet Archive: Petabox|website=archive.org|language=en|accessdate=October 25, 2018}}</ref><ref>{{Cite news|url=http://news.zdnet.com/2100-9584_22-5808754.html|title=Big storage on the cheap|last=Kanellos|first=Michael|date=July 29, 2005|accessdate=July 29, 2007|archiveurl=https://web.archive.org/web/20070403030705/http://news.zdnet.com/2100-9584_22-5808754.html <!-- Bot retrieved archive -->|archivedate=April 3, 2007|publisher=CNET News.com}}</ref>
Оскільки технологія розвивалася протягом багатьох років, ємність машина Wayback виріс. У 2003 році, через два роки публічного доступу, машина Wayback зростало зі швидкістю 12 терабайт в місяць. Дані зберігаються на [[PetaBox]] системи шафи користувальницькі розроблений інтернет-архіві співробітників. Перші стійки 100ТВ була повністю введена в дію в червні 2004 року, хоча незабаром стало ясно, що їх потрібно значно більше місця, ніж це.<ref>{{Cite web|url=https://archive.org/web/petabox.php|title=Internet Archive: Petabox|website=archive.org|language=en|accessdate=October 25, 2018}}</ref><ref>{{Cite news|url=http://news.zdnet.com/2100-9584_22-5808754.html|title=Big storage on the cheap|last=Kanellos|first=Michael|date=July 29, 2005|accessdate=July 29, 2007|archiveurl=https://web.archive.org/web/20070403030705/http://news.zdnet.com/2100-9584_22-5808754.html <!-- Bot retrieved archive -->|archivedate=April 3, 2007|publisher=CNET News.com}}</ref>



Версія за 06:20, 21 квітня 2019

Wayback Machine
Логотип
Логотип
Файл:WaybackMachineHomepageNovember2015.png
Wayback Machine homepage on November 2015
Посилання web.archive.org
Тип Archive
Реєстрація Optional
Мови англійська
Власник Internet Archive
Автор Брюстер Кейгл і Брюс Джильятd
Започатковано 24 жовтня 2001; 22 роки тому (2001-10-24)[1][2]
Стан Active
Рейтинг Alexa 253 (February 2019)[3]
Мова програмування C, Perl, Java і Python
CMNS: Wayback Machine у Вікісховищі

Wayback Machine - цифровий архів з всесвітнього павутиння та іншої інформації в Інтернеті. Його запустила 2001 року Інтернет-архів, неприбуткова організація, що базується в Сан-Франциско(Каліфорнія, США).

Історія

Засновники Інтернет-архіву Брюстер Кале і Брюс Джилліат[en] запустили Wayback Machine 2001 року, щоб вирішити проблему зникнення контенту веб-сайтів кожного разу, коли їх змінюють або закривають.[4] Сервіс дозволяє користувачам переглядати архівні версії веб-сторінок, як вони змінювались з часом, що архів називає "тривимірним індексом".[5] Кале і Джилліат створили машину, сподіваючись заархівувати весь інтернет і забезпечити "загальний доступ до всіх знань".[6]

Назву Wayback Machine вибрали як посилання на "WABAC machine[en]" (вимовляється вей-бек), пристрій для подорожей у часі, який застосовують персонажі Містер Пібоді[en] і Шерман в анімаційному фільмі Шоу Роккі та Буллвінкля[en].[7][8] В одній з частин цього анімаційного мультфільму, Неймовірна історія Пібоді[en], персонажі часто використовував машину, щоб спостерігати відомі події в історії, брати в них участь і, частіше, змінювати їх хід.

Wayback Machine почала архівувати кешовані веб-сторінки 1996 року, з метою зробити послугу доступною громадськості п'ять років по тому.[9] Від 1996 до 2001 року інформація зберігалася на цифрових плівках, а Кале зрідка дозволяв дослідникам і дослідникам і науковцям підключатися до громіздкої бази даних.[10] 2001 року, коли архівові виповнилося п'ять років, його відкрили для публіки на церемонії в Університеті Каліфорнії (Берклі).[11] До часу запуску Wayback Machine вона вже містила понад 10 мільярдів архівних сторінок.[12]

Нині дані зберігаються на великому кластері вузлів Linux Інтернет-архіву.[6] Він заново відвідує і архівує нові версії веб-сайтів випадково (див. технічні дані нижче).[13] Сайти також можна архівувати вручну, вводячи його URL-адресу в поле пошуку, за умови, що сайт дозволяє Wayback Machine "проковзати" по ньому пошуковим роботом і зберегти дані.[9]

Технічні подробиці

Програмне забезпечення розроблено, щоб пошуковий робот міг "проковзувати" по Інтернету і завантажувати всі загальнодоступні веб-сторінки, ієрархію Gopher, систему дошки оголошень Usenet і завантажуване програмне забезпечення.[14] Інформація, зібрана за допомогою цих роботів не включає всю доступну інформацію в Інтернеті, оскільки значну частину даних обмежують видавці, або вона зберігається в недоступних базах даних. Щоб подолати суперечності частково кешованих веб-сайтів, 2005 року Інтернет архів розробив Archive-It.org як засіб, що дозволяє установам і творцям контенту добровільно збирати і зберігати колекції цифрового контенту та створювати цифрові архіви.[15]

Crawls надходять з різних джерел, деякі імпортуються від третіх сторін, тоді як інші генеруються всередині самого архіву.[13] Наприклад, Crawls надходять від Фундації Альфреда Слоуна і Alexa, повзає веденні ІА від імені Національного управління архівів та документації та Internet Memory Foundation[en], дзеркал з Common Crawl[en].[13] "Worldwide Web Crawls" працює з 2010 року і захоплює глобальне павутиння.[16][13]

Частота захоплень для зберігання змінюється в залежності від сайту.[13] Сайти у "Worldwide Web Crawls" включені в "crawl list", один сайт архівується раз за обхід.[13] Обхід може тривати кілька місяців або навіть років у залежності від розміру.[13] Наприклад, "Wide Crawl Number 13" розпочався 9 січня 2015 року й завершився 11 липня 2016 року.[17] Однак, в один і той самий момент може проходити кілька обходів, і сайт може бути включений у понад один crawl list, тож частота обходу сайтів змінюється в широких межах.[13]

Місткість сховища і зростання

Оскільки технологія розвивалася протягом багатьох років, ємність машина Wayback виріс. У 2003 році, через два роки публічного доступу, машина Wayback зростало зі швидкістю 12 терабайт в місяць. Дані зберігаються на PetaBox системи шафи користувальницькі розроблений інтернет-архіві співробітників. Перші стійки 100ТВ була повністю введена в дію в червні 2004 року, хоча незабаром стало ясно, що їх потрібно значно більше місця, ніж це.[18][19]

Інтернет-архіву перевела свої індивідуальні архітектурою зберігання сонячної відкритого зберігання в 2009 році, і господарі нового центру обробки даних у ВС МЦОД на "Сан майкросистемз"' Каліфорнійський кампус.[20] Станом на 2009у спорті міститься близько трьох петабайт даних і зростає зі швидкістю 100 терабайт кожен місяць.[21]

Нова, поліпшена версія машина Wayback, з оновленим інтерфейсом і свіже індекс архівних матеріалів, стала доступна для публічного тестування в 2011 році.[22] У березні цього року, було сказано на форумі машина Wayback, що "бета нова машина Wayback має більш повну і актуальну покажчик всіх обходимых матеріалів в 2010 році, і буде регулярно оновлюватися. Індекс водіння класичний машина Wayback тільки трохи матеріалу минулого 2008 року, і ніяких подальших оновлень індексу плануються, як буде згортатися в цьому році".[23] Також в 2011 році інтернет-архів встановлений свій шостий пари PetaBox стійки, які збільшили ємність спорті на 700 терабайт.[24]

У січні 2013 року, компанія оголосила про новою віхою 240 мільярдів URL-адрес.[25] В жовтні 2013 року, компанія оголосила про "Зберегти сторінку" функцію[26], який дозволяє будь-якому користувачеві мережі Інтернет, щоб заархівувати вміст URL-адреси. Це стало загрозою зловживань з боку сервіс для хостингу шкідливих двійкових файлів.[27][28]

Станом на грудень 2014машина Wayback, що містяться 435 мільярдів веб-сторінок—майже дев'ять петабайты даних, і зростає приблизно на 20 терабайт в тиждень.[29][12][30]

Станом на липень 2016машина Wayback, як повідомляється, містить близько 15 петабайт даних.[31]

Станом на вересень 2018, машина Wayback містили більше 25 петабайт даних.[32][33]

Зростання

В період з жовтня 2013 року по березень 2015 року, сайт глобальний Alexa rank змінюється від 163[34] на 208.[35] У березні 2019 ранг був на 244.[36]

Видавця Машина Зростання [37] [38]
Машина Wayback по роках Сторінки архівувати (млрд.)
2005
40
2008
85
2012
150
2013
373
2014
400
2015
452

Політики винятку сайт

Історично, спорті і поважав роботів виняток стандартний (robots.txt) у визначенні, якщо сайт буде доповз чи ні; або якщо вже поповз, якщо його архіви будуть знаходитися у відкритому доступі. Власники веб-сайту мав можливість відмовитися від Машина Wayback за рахунок використання robots.txt. Його застосовують правила robots.txt заднім числом; якщо сайт заблокував інтернет-архів, всі раніше архівні сторінки з домену була негайно надана також недоступні. Крім того, в інтернет-архіві заявив, що "іноді власник сайту зв'яжіться з нами і попросити нас зупинити сканування і архівація сайту. Ми дотримуємося ці запити".[39] На додаток, на сайті написано: "Інтернет-архіву не зацікавлені у збереженні або надання доступу до веб-сайти або інші інтернет-документів від осіб, які не хочуть, щоб їх матеріали в колекції."[40][41]

Архів Політики Окленд

Видавця зворотнього винятку політики частково заснований на рекомендаціях по управлінню видалення запитів і збереження цілісності архівних, опублікованих школа управління інформацією і системами в Університеті Каліфорнії, Берклі в 2002 році, який дає власник сайту має право заблокувати доступ на сайт архів.[42] Видавця дотримується цю політику, щоб допомогти уникнути дорогого судового розгляду.[43]

Ретроактивне політики видавця винятку почали відпочивати в 2017 році, коли він перестав шанувати robots.txt на уряд США і військові веб-сайти для повзання та відображення веб-сторінок. Станом на квітень 2017, - це ігнорування robots.txt у більш широкому сенсі, не тільки на урядові сайти США.[44][45][46][47]

Використовує

З його публічного запуску в 2001 році, машина Wayback була вивчена вченими як по дорозі він збирає і зберігає інформацію, а також фактичні сторінки, що містяться в його архіві. Станом на 2013 рік, вчені написав близько 350 статей Машина Wayback, в основному з інформаційних технологій, бібліотекознавства і поля соціальних наук. Вчені суспільних наук скористалися машина Wayback, щоб проаналізувати, як створення веб-сайтів, починаючи з середини 1990-х років і до теперішнього часу негативно впливає на ріст компанії.[12]

Коли машина Wayback архіви сторінці, воно зазвичай складається з гіперпосилань, зберігаючи ці посилання активними, коли вони так само легко могло бути порушено нестабільності Інтернету. Індійські вчені вивчали ефективність здібності у спорті, щоб зберегти гіперпосилання в інтернеті наукових публікацій і виявили, що він зберігається трохи більше половини з них.[48]

Журналісти використовують машина Wayback, щоб дивитися мертві сайти, від новин і змін на сайті зміст. Його зміст використовується для політиків і піддати бою лежить.[49] У 2014 році архівний соціальних медіа сторінки Ігор Гиркин, сепаратистський лідер бунтівників в Україні, показав йому хвалитися своїми воїнами, збили підозрюють українських військових літака напередодні стало відомо, що літак насправді був цивільний літак Малайзійських авіаліній, після чого він видалив пост і звинуватив Україну у військових за знищення літака.[49][50] У 2017 році, в березні в науці виникла обговорення на реддите, що вказав хтось відвідав Archive.org і виявив, що всі посилання на зміни клімату були видалені з сайті Білого дому. У відповідь один з користувачів прокоментував: "там має бути вчених марш на Вашингтон".[51][52][53]

Крім того, сайт активно використовується для перевірки, надання доступу до посилання і контент створення редакторів Вікіпедії. [правити]

Обмеження

Незважаючи на свої можливості, машина Wayback також має деякі обмеження. У 2014 році було шість-місяць часу затримки між тим, коли сайт обході і коли вона буде доступна для перегляду Машина Wayback.[54] В даний час, час затримки становить від 3 до 10 годин.[55] Машина Wayback-це не "історичні Гугл"; користувачі повинні знати URL-адреси веб-сайтів, які вони хочуть бачити.[56] У нього є функція "пошук на сайті", яка дозволяє користувачам знайти сайт на основі слова, що характеризують сайт, а не слова, знайдені на веб-сторінках.

Машина Wayback не включає в себе всі веб-сторінки, коли-небудь зроблених через обмеженість свого веб-краулер. Машина Wayback не може повністю архів веб-сторінок, які містять інтерактивні функції, такі як Флеш-платформи і форм, написаних на JavaScript, бо ті функції, що вимагають взаємодії з хост-сайт. Їх веб-гусеничний, насилу витягаючи нічого не закодовано у HTML (або один з його варіантів), який часто призводить до зламаної гіперпосилання та відсутніх зображень. Крім того, веб-краулер не архіві "сирота сторінок", які не містять посилань на інші сторінки.[57][56] Конкретних норм, що регулюють шляху машини обхідник може слідувати тільки заздалегідь задану кількість гіперпосилань на основі заданої глибині межі, тому він не може архівувати всі гіперпосилання на кожній сторінці.[16]

Деякі власники помістити файл robot.txt на сайті, який заважає машина Wayback від відкриття та архівування. Крім того, власники веб-сайтів також можуть зв'язатися з інтернет-архіву безпосередньо і просити, щоб їх сторінки будуть виключені з архіву.[57]

В юридичні докази

Цивільного судочинства

Netbula ТОВ Ст. Chordiant Software Інк

У 2009 випадку, Netbula, ТОВ Ст. Chordiant Software Інк, відповідач Chordiant подав клопотання, щоб відключити Netbula robots.txt файл на своєму сайті, що викликає спорті заднім числом видалити доступ до попередніх версій сторінок було перевірено Netbula сайту, сторінки, які Chordiant повірив би підтримати її справою.[58]

Netbula проти руху на тій підставі, що відповідачі зверталися з проханням переробити сайт Netbula і що вони повинні були викликані в архіві інтернету для сторінки безпосередньо.[59] Співробітник інтернет-архіві подала заяву під присягою підтримки руху Chordiant, однак, заявивши, що не може виробляти веб-сторінки за допомогою інших засобів "без значного навантаження, витрата і перебої в його діяльності."[58]

Суддя суддя Говард Ллойд в Північному окрузі Каліфорнія, відділ Сан-Хосе, відхилив доводи Netbula і наказав їм тимчасово відключити блокування robots.txt для того, щоб Chordiant для отримання архівних сторінок, які вони шукали.[58]

Компанії Telewizja Polska

У жовтні 2004 року випадок, ТВ Польска США, Inc. Ст. ЭкоСтар СупутниковимиР. № 02 З 3293, 65 ФРС. Р. Эвид. Серв. 673 (Н. Д. Хворий. 15 жовтня 2004 року), позивач намагався використовувати видавця архівів машина як джерело допустимих доказів, мабуть, вперше. Компанії Telewizja Polska є постачальником ТВП полонію і Экостар працює в Мережі тарілки. До початку судового розгляду, Экостар вказала, що вона має намір запропонувати спорті знімки як доказ минулому змісту сайту компанії Telewizja Польска. Компанії Telewizja Polska і приніс рух в limine, щоб придушити знімки на підставі чуток і неперевірених джерел, але суддя Arlander ключів відхилені ТБ польської затвердження чуток і відмовлено в ПВ руху в limine, щоб виключити докази в суді.[60][61] На суді, однак окружний суддя Рональд Гузман суд, суддя, скасував висновків світового судді ключів, [потрібна цитация] і постановив, що ні присягою інтернет-співробітник архіву, ні базових сторінок (тобто ТБ Польска сайт приймаються в якості доказів. Суддя Гусман розсудив, що заява працівника містило чуток і непереконливі підтвердження, і передбачуваний веб-сторінки, роздруківки не вимагають засвідчення. [правити]

Патентне право

Передбачені деякі додаткові вимоги (наприклад, надання авторитетне заяву архіваріус), в США патентним відомством і Європейським патентним відомством приймаються дата, з інтернет-архіву в якості доказу при даній веб-сторінка була доступна для громадськості. Ці дані використовуються для визначення, чи є веб-сторінка доступна в якості попереднього рівня техніки, наприклад, при розгляді заявки на патент.[62]

Обмеження корисності

Існують технічні обмеження для архівування веб-сайт, і, як наслідок, можливо, для протилежних сторін у судовому процесі використання результатів, представлених архівів сайту. Ця проблема може посилюватися практику подання скріншоти веб-сторінок на скарги, відповіді, експертів або свідків, коли основною посилання не відображаються і, отже, може містити помилки. Наприклад, архіви, такі як спорті не заповнювати форми і, отже, не включають у зміст неспокійний електронної комерції, баз даних в архівах.[63]

Правовий статус

В Європі, у спорті можуть бути витлумачені як такі, що порушують закони про авторське право. Тільки творець контенту може вирішити, де їх зміст опублікованих або дублюються, тому в архіві доведеться видаляти сторінки з своєї системи за запитом Творця.[64] Політика ізоляції машина Wayback можна знайти в розділі FAQ на сайті.[65]

Вміст архіву правових питань

Ряд кримінальних справ було порушено проти інтернет-архів спеціально для своїх машина Wayback архівування зусилля.

Саєнтологія

В кінці 2002 року В інтернет-архіві видалені різних сайтах, критикують саєнтологію з спорті.[66] Повідомлення про помилку йдеться, що це було у відповідь на "прохання власника сайту".[67] Пізніше було уточнено, що юристи Церкви Саєнтології зажадав видалення і що власники сайтів не хочуть, щоб їх матеріал видалено.[68]

Захисники Охорони Здоров'я, Інк.

У 2003 році, Хардінг Ерлі Фоллмер & Фрейлі захистив клієнта від спорів щодо товарних знаків через машину Wayback архіву. Адвокати змогли довести, що претензії позивача були визнані недійсними, виходячи із змісту їх сайту від декількох років до. Позивач, охорони здоров'я пропагує, то поправки в свої скарга включити інтернет архіві, звинувативши організацію в порушенні авторських прав, а також порушень закону та комп'ютерному шахрайстві і зловживанні законом. Медичні адвокати стверджували, що, оскільки вони були встановлені robots.txt файл на їх сайті, навіть якщо після того, як первісний позов був поданий, в архіві повинні бути видалені всі попередні копії позивач сайті спорті, проте, деякі матеріали продовжують бути видно на видавця.[69] Позов був улагоджений з суду, після того, як видавця Виправлена проблема.[70]

Сюзанна Оболонки

Активістка Сюзанна оболонки подав позов у грудні 2005 року, вимагаючи інтернет-архіві заплатити їй$100 000 для архівування її сайт profane-justice.org між 1999 і 2004.[71][72] Інтернет-архіві подав деклараторного рішення, позов в окружний суд Сполучених Штатів для Північного округу Каліфорнії на 20 січня 2006 року, домагаючись судового визначення, що інтернет-архів не порушити оболонки авторських прав. Оболонка відгукнувся і приніс зустрічний позов проти інтернет-архіву для архівації її сайт, який вона стверджує, що є порушенням її термінів служби.[73] 13 лютого 2007 року суддя Окружного суду Сполучених Штатів для округу Колорадо відхилив всі зустрічні, крім порушення договору.[72] Інтернет-архіву не відмовляємося порушення авторських прав позови оболонки стверджував, що виникають у результаті її копіювання діяльності, яка б також йти вперед.[74]

25 квітня 2007 року, інтернет-архів і Сюзанна оболонки спільно оголосили про врегулювання позовів.[71] Інтернет-архіву сказав, що це "...не має жодного інтересу в тому числі матеріалів Машина Wayback осіб, які не бажають, щоб їх веб-вміст в архіві. Ми визнаємо, що пані Шелл дійсним і виконуваним авторське право на її веб-сайті і ми шкодуємо про те, що включення її веб-сайті Машина Wayback в результаті цього судового процесу". Сказав Шелл, "я поважаю історичну цінність мета Інтернет-архіву. Я ніколи не збирався втручатися у цю мету не заподіяти йому ніякої шкоди".[75]

Данило Davydiuk

Між 2013 і 2016, а порнографічний актор намагався видалити архівні знімки самого видавця. архів, спочатку відправивши кілька заяв запитів в архів, а потім звернутися в Федеральний суд Канади.[76][77][78]

Цензура та інших загроз

Archive.org в даний час заблокований в Китаї.[79][80] Після того, як сайт включений у зашифрованому вигляді за HTTPS протоколу в Мережі архів був заблокований в цілому в Росії в 2015 році.[81][82][49][потрібне оновлення?]

Елісон Макріна, директор проекту Freedom бібліотеки, зазначає, що "в той час як бібліотекарі глибоко цінуємо недоторканності приватного життя, ми також рішуче виступаємо проти цензури".[49]

Відомі рідкісні випадки, коли онлайн-доступ до матеріалів, які "за просто так" і поставити людей в небезпеці була відключена на сайті.[49]

Інші загрози включають стихійні лиха,[83] знищення (дистанційне або фізична), [правити] маніпуляція вміст архіву (див. також: кібератаки, резервне копіювання), проблематично авторське право[84] і спостереження на сайті користувачі.[85]

Кевін он підозрює, що в довгостроковій перспективі декількох поколінь "безцінь" виживуть корисним способом, крім "Якщо у нас є наступність у нашої технологічної цивілізації", за яким "велика голою дані залишаться виявити і пошуку".[86]

Деякі [хто?] знайти в інтернет-архіві, який описує себе в довгостроковій перспективі[87] працює несамовито, щоб захопити дані, перш ніж він зникає без будь-яких довгострокових інфраструктура.[88]

См. також

Посилання

  1. WayBackMachine.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. Процитовано 13 березня 2016.
  2. InternetArchive.org WHOIS, DNS, & Domain Info – DomainTools. WHOIS. Процитовано 13 березня 2016.
  3. Archive.org Traffic, Demographics and Competitors - Alexa. alexa.com. Процитовано 4 February 2019.
  4. {{cite journal}}: Порожнє посилання на джерело (довідка)
  5. The Wayback Machine, Frequently Asked Questions, архів оригіналу за 18 вересня 2018, процитовано 18 вересня 2018
  6. а б 20,000 Hard Drives on a Mission | Internet Archive Blogs. blog.archive.org (амер.). Архів оригіналу за 20 жовтня 2018. Процитовано 15 жовтня 2018.
  7. Green, Heather (28 лютого 2002). A Library as Big as the World. BusinessWeek. Архів оригіналу за 20 грудня 2011.
  8. Tong, Judy (8 вересня 2002). Responsible Party – Brewster Kahle; A Library Of the Web, On the Web. New York Times. Архів оригіналу за 20 лютого 2011. Процитовано 15 серпня 2011.
  9. а б Internet Archive: Wayback Machine. archive.org (англ.). Архів оригіналу за 3 січня 2014. Процитовано 15 жовтня 2018.
  10. Cook, John (1 листопада 2001). Web site takes you way back in Internet history. Seattle Post-Intelligencer. Архів оригіналу за 12 серпня 2014. Процитовано 15 серпня 2011.
  11. {{cite journal}}: Порожнє посилання на джерело (довідка)
  12. а б в {{cite journal}}: Порожнє посилання на джерело (довідка)
  13. а б в г д е ж и Kalev Leetaru (28 січня 2016). The Internet Archive Turns 20: A Behind the Scenes Look at Archiving the Web. Forbes. Архів оригіналу за 16 жовтня 2017. Процитовано 16 жовтня 2017.
  14. Kahle, Brewster. Archiving the Internet. Scientific American – March 1997 Issue. Архів оригіналу за 3 квітня 2012. Процитовано 19 серпня 2011.
  15. Jeff Kaplan (27 жовтня 2014). Archive-It: Crawling the Web Together. Internet Archive Blogs. Архів оригіналу за 12 жовтня 2017. Процитовано 16 жовтня 2017.
  16. а б Worldwide Web Crawls. Internet Archive. Архів оригіналу за 19 жовтня 2017. Процитовано 16 жовтня 2017.
  17. Wide Crawl Number 13. Internet Archive. Архів оригіналу за 19 жовтня 2017. Процитовано 16 жовтня 2017.
  18. Internet Archive: Petabox. archive.org (англ.). Процитовано 25 жовтня 2018.
  19. Kanellos, Michael (29 липня 2005). Big storage on the cheap. CNET News.com. Архів оригіналу за 3 квітня 2007. Процитовано 29 липня 2007.
  20. Internet Archive and Sun Microsystems Create Living History of the Internet. Sun Microsystems. 25 березня 2009. Архів оригіналу за 26 березня 2009. Процитовано 27 березня 2009.
  21. Mearian, Lucas (19 березня 2009). Internet Archive to unveil massive Wayback Machine data center. Computerworld.com. Архів оригіналу за 23 березня 2009. Процитовано 22 березня 2009.
  22. Updated Wayback Machine in Beta Testing. Archive.org. Архів оригіналу за 23 серпня 2011. Процитовано 19 серпня 2011.
  23. Beta Wayback Machine, in forum. Archive.org. Архів оригіналу за 17 квітня 2014. Процитовано 16 квітня 2014.
  24. Internet Archive Forums: 6th pair of racks go into service: over 2PB of data space used. archive.org (англ.). Архів оригіналу за 24 жовтня 2016. Процитовано 25 жовтня 2018.
  25. Wayback Machine: Now with 240,000,000,000 URLs | Internet Archive Blogs. Blog.archive.org. 9 січня 2013. Архів оригіналу за 14 квітня 2014. Процитовано 16 квітня 2014.
  26. Rossi, Alexis (25 жовтня 2013). Fixing Broken Links on the Internet. archive.org. San Francisco, CA, US: Collections Team, the Internet Archive. Архів оригіналу за 7 листопада 2014. Процитовано 25 березня 2015. We have added the ability to archive a page instantly and get back a permanent URL for that page in the Wayback Machine. This service allows anyone – wikipedia editors, scholars, legal professionals, students, or home cooks like me – to create a stable URL to cite, share or bookmark any information they want to still have access to in the future.
  27. The VirusTotal Team (25 березня 2015). 207.241.226.190 IP address information. virustotal.com. Dublin 2, Ireland: VirusTotal. Архів оригіналу за 14 липня 2014. Процитовано 25 березня 2015. 2015-03-25: Latest URLs hosted in this IP address detected by at least one URL scanner or malicious URL dataset. ... 2/62 2015-03-25 16:14:12 [complete URL redacted]/Renegotiating_TLS.pdf ... 1/62 2015-03-25 04:46:34 [complete URL redacted]/CBLightSetup.exe
  28. Advisory provided by Google (25 березня 2015). Safe Browsing Diagnostic page for archive.org. google.com/safebrowsing. Mountain View, CA, US: Google. Архів оригіналу за 6 квітня 2015. Процитовано 25 березня 2015. 2015-03-25: Part of this site was listed for suspicious activity 138 time(s) over the past 90 days. ... What happened when Google visited this site? ... Of the 42410 pages we tested on the site over the past 90 days, 450 page(s) resulted in malicious software being downloaded and installed without user consent. The last time Google visited this site was on 2015-03-25, and the last time suspicious content was found on this site was on 2015-03-25. ... Malicious software includes 169 trojan(s), 126 virus, 43 backdoor(s).
  29. Internet Archive Frequently Asked Questions. Архів оригіналу за 21 жовтня 2009. Процитовано 17 січня 2015.
  30. Internet Archive Frequently Asked Questions. 18 грудня 2014. Архів оригіналу за 18 грудня 2014. Процитовано 13 грудня 2018.
  31. Can the manipulation of big data change the way the world thinks?. The National. Архів оригіналу за 12 січня 2017. Процитовано 14 травня 2017.
  32. Crockett, Zachary (28 вересня 2018). Inside Wayback Machine, the internet’s time capsule. The Hustle (амер.). Архів оригіналу за 2 жовтня 2018. Процитовано 26 жовтня 2018.
  33. Heffernan, Virginia (18 вересня 2018). Things Break and Decay on the Internet—That's a Good Thing. WIRED (амер.). Архів оригіналу за 25 вересня 2018. Процитовано 26 жовтня 2018.
  34. Archive.org Site Info. Alexa Internet. Архів оригіналу за 28 жовтня 2013. Процитовано 29 жовтня 2013.
  35. Archive.org Site Overview. Alexa Internet. Архів оригіналу за 9 квітня 2015. Процитовано 9 квітня 2015.
  36. Archive.org Traffic, Demographics and Competitors - Alexa. web.archive.org. 23 березня 2019. Процитовано 5 квітня 2019.
  37. michelle (May 9, 2014). "Wayback Machine Hits 400,000,000,000!". Internet Archive. Archived from the original on August 26, 2014. Retrieved March 25, 2015.
  38. "Internet Archive Wayback Machine". Internet Archive. Archived from the original on February 13, 2015. Retrieved March 25, 2015.
  39. Some sites are not available because of Robots.txt or other exclusions [Шаблон:Webarchive:помилка: Перевірте аргументи |url= value. Порожньо.]
  40. How can I remove my site's pages from the Wayback Machine? [Шаблон:Webarchive:помилка: Перевірте аргументи |url= value. Порожньо.]
  41. Cox, Joseph (22 травня 2018). The Wayback Machine Is Deleting Evidence of Malware Sold to Stalkers. Архів оригіналу за 23 травня 2018. Процитовано 23 травня 2018.
  42. Recommendations for Managing Removal Requests And Preserving Archival Integrity. University of California. 14 грудня 2002. Архів оригіналу за 18 вересня 2017. Процитовано 14 вересня 2017.
  43. Retroactive robots.txt removal of past crawls AKA Oakland Archive Policy. Internet Archive. 7 липня 2014. Архів оригіналу за 10 жовтня 2017. Процитовано 14 вересня 2017.
  44. Mark Graham (17 квітня 2017). Robots.txt meant for search engines don't work well for web archives. Internet Archive Blogs. Архів оригіналу за 17 квітня 2017. Процитовано 16 квітня 2017.
  45. Archivierung des Internets: Internet Archive ignoriert künftig robots.txt (de-DE) . heise online. Архів оригіналу за 27 квітня 2017. Процитовано 14 травня 2017.
  46. Suchmaschinen: Internet Archive will künftig Robots.txt-Einträge ignorieren – Golem.de (de-DE) . Архів оригіналу за 19 червня 2017. Процитовано 14 травня 2017.
  47. Internet Archive will ignore robots.txt files to keep historical record accurate. Digital Trends. 24 квітня 2017. Архів оригіналу за 16 травня 2017. Процитовано 14 травня 2017.
  48. {{cite journal}}: Порожнє посилання на джерело (довідка)
  49. а б в г д Wayback Machine Won't Censor Archive for Taste, Director Says After Olympics Article Scrubbed. Архів оригіналу за 6 січня 2017. Процитовано 14 травня 2017.
  50. What the Web Said Yesterday. The New Yorker. Архів оригіналу за 25 січня 2015. Процитовано 14 травня 2017.
  51. The March for Science began with this person's 'throwaway line' on Reddit. Washington Post. Архів оригіналу за 23 квітня 2017. Процитовано 23 квітня 2017.
  52. Are scientists going to march on Washington?. The Washington Post. Архів оригіналу за 31 січня 2017. Процитовано 31 січня 2017.
  53. Foley, Katherine Ellen. The global March for Science started with a single Reddit thread. Quartz. Архів оригіналу за 24 квітня 2017. Процитовано 23 квітня 2017.
  54. Internet Archive Frequently Asked Questions. Internet Archive. 2 квітня 2014. Архів оригіналу за 2 квітня 2014. Процитовано 23 листопада 2018.
  55. Internet Archive Frequently Asked Questions. archive.org (англ.). Процитовано 23 листопада 2018.
  56. а б {{cite journal}}: Порожнє посилання на джерело (довідка)
  57. а б Internet Archive Frequently Asked Questions. archive.org (англ.). Архів оригіналу за 20 квітня 2013. Процитовано 18 жовтня 2018.
  58. а б в Lloyd, Howard (October 2009). Order to Disable Robots.txt (PDF). Процитовано 15 жовтня 2009.
  59. Cortes, Antonio (October 2009). Motion Opposing Removal of Robots.txt. Архів оригіналу за 27 жовтня 2010. Процитовано 15 жовтня 2009.
  60. {{cite journal}}: Порожнє посилання на джерело (довідка)
  61. {{cite journal}}: Порожнє посилання на джерело (довідка)
  62. Wynn W. Coggins (Fall 2002). Prior Art in the Field of Business Method Patents – When is an Electronic Document a Printed Publication for Prior Art Purposes?. USPTO. Архів оригіналу за 21 вересня 2012.
  63. Debunking the Wayback Machine. Архів оригіналу за 29 червня 2010.
  64. Bahr, Martin (2002). The Wayback Machine und Google Cache - eine Verletzung deutschen Urheberrechts?. JurPC (нім.). doi:10.7328/jurpcb/20021719. Архів оригіналу за 23 серпня 2009.
  65. Internet Archive FAQ. Archive.org. Архів оригіналу за 17 квітня 2014. Процитовано 16 квітня 2014.
  66. Bowman, Lisa M (24 вересня 2002). Net archive silences Scientology critic. CNET News.com. Архів оригіналу за 15 травня 2012. Процитовано 4 січня 2007.
  67. Jeff (23 вересня 2002). exclusions from the Wayback Machine. Wayback Machine Forum. Internet Archive. Архів оригіналу (Blog) за 11 лютого 2007. Процитовано 4 січня 2007. Author and Date indicate initiation of forum thread.
  68. Miller, Ernest. Sherman, Set the Wayback Machine for Scientology. LawMeme. Yale Law School. Архів оригіналу (Blog) за 16 листопада 2012. Процитовано 4 січня 2007.
  69. {{cite journal}}: Порожнє посилання на джерело (довідка)
  70. {{cite journal}}: Порожнє посилання на джерело (довідка)
  71. а б {{{litigants}}}. Text
  72. а б Babcock, Lewis T., Chief Judge (13 лютого 2007). Internet Archive v. Shell Civil Action No. 06cv01726LTBCBS (PDF). Архів оригіналу (PDF) за 25 січня 2014. Процитовано 25 березня 2015. 1) Internet Archive's motion to dismiss Shell's counterclaim for conversion and civil theft (Second Cause of Action) is GRANTED, 2) Internet Archive's motion to dismiss Shell's counterclaim for breach of contract (Third Cause of Action) is DENIED; 3) Internet Archive's motion to dismiss Shell's counterclaim for Racketeering under RICO and COCCA (Fourth Cause of Action) is GRANTED.
  73. Claburn, Thomas (16 березня 2007). Colorado Woman Sues To Hold Web Crawlers To Contracts. New York, NY, US: InformationWeek, UBM Tech, UBM LLC. Архів оригіналу за 4 вересня 2014. Процитовано 25 березня 2015. Computers can enter into contracts on behalf of people. The Uniform Electronic Transactions Act (UETA) says that a 'contract may be formed by the interaction of electronic agents of the parties, even if no individual was aware of or reviewed the electronic agents' actions or the resulting terms and agreements.'
  74. Samson, Martin H., Phillips Nizer LLP (2007). Internet Archive v. Suzanne Shell. internetlibrary.com. Internet Library of Law and Court Decisions. Архів оригіналу за 3 серпня 2014. Процитовано 25 березня 2015. More importantly, held the court, Internet Archive's mere copying of Shell's site, and display thereof in its database, did not constitute the requisite exercise of dominion and control over defendant's property. Importantly, noted the court, the defendant at all times owned and operated her own site. Said the Court: 'Shell has failed to allege facts showing that Internet Archive exercised dominion or control over her website, since Shell's complaint states explicitly that she continued to own and operate the website while it was archived on the Wayback machine. Shell identifies no authority supporting the notion that copying documents is by itself enough of a deprivation of use to support conversion. Conversely, numerous circuits have determined that it is not.'
  75. brewster (25 квітня 2007). Internet Archive and Suzanne Shell Settle Lawsuit. archive.org. Denver, CO, USA: Internet Archive. Архів оригіналу за 5 грудня 2010. Процитовано 25 березня 2015. Both parties sincerely regret any turmoil that the lawsuit may have caused for the other. Neither Internet Archive nor Ms Shell condones any conduct which may have caused harm to either party arising out of the public attention to this lawsuit. The parties have not engaged in such conduct and request that the public response to the amicable resolution of this litigation be consistent with their wishes that no further harm or turmoil be caused to either party.
  76. Stobbe, Richard (5 December 2014). Copyright Implications Of A "Right To Be Forgotten"? Or How To Take-Down The Internet Archive. Mondaq. Процитовано 8 March 2019.
  77. McVeigh, Glennys (16 October 2014). Philpott, James; Weissman, Adam; Bucholz, Ren; Kettles, Brent; Pearl, Aaron (ред.). Davydiuk v. Internet Archive Canada, 2014 FC 944. CanLII. Federation of Law Societies of Canada. Процитовано 8 March 2019.
  78. Southcott, Richard F. (30 November 2016). Philpott, John; Alton, Alex; Bucholz, Ren (ред.). Davydiuk v. Internet Archive Canada and Internet Archive, 2016 FC 1313 (CanLII). CanLII. Ottawa, Ontario: Federation of Law Societies of Canada. Процитовано 8 March 2019.
  79. Conger, Kate. Backing up the history of the internet in Canada to save it from Trump. TechCrunch. Архів оригіналу за 27 грудня 2016. Процитовано 14 травня 2017.
  80. Where to find what's disappeared online, and a whole lot more: the Internet Archive. Public Radio International. Архів оригіналу за 28 березня 2017. Процитовано 14 травня 2017.
  81. Chirgwin, Richard. There's no Wayback in Russia: Putin blocks Archive.org. Архів оригіналу за 7 жовтня 2016. Процитовано 14 травня 2017.
  82. Russia won’t go Wayback, blocks the Internet Archive. Digital Trends. 26 червня 2015. Архів оригіналу за 17 квітня 2016. Процитовано 14 травня 2017.
  83. Help Us Keep the Archive Free, Accessible, and Reader Private | Internet Archive Blogs. Архів оригіналу за 21 травня 2017. Процитовано 14 травня 2017.
  84. Internet Archive: Proposed Changes To DMCA Would Make Us "Censor The Web". Consumerist. 7 червня 2016. Архів оригіналу за 11 листопада 2016. Процитовано 14 травня 2017.
  85. Herb, Ulrich. Die Trump-Angst grassiert (de-DE) . heise online. Архів оригіналу за 7 грудня 2016. Процитовано 14 травня 2017.
  86. LaFrance, Adrienne. The Internet's Dark Ages. The Atlantic. Архів оригіналу за 7 травня 2017. Процитовано 14 травня 2017.
  87. The Entire Internet Will Be Archived In Canada to Protect It From Trump (en-us) . Motherboard. Архів оригіналу за 16 травня 2017. Процитовано 14 травня 2017.
  88. LaFrance, Adrienne. The Human Fear of Total Knowledge. The Atlantic. Архів оригіналу за 2 грудня 2016. Процитовано 14 травня 2017.

Зовнішні посилання

Дзеркала

Комунальні послуги