Все мы когда-то сталкивались с этим: при просмотре веб-страниц вы нажимаете на неработающую ссылку и получаете сообщение о том, что запрашиваемая страница не существует. Это распространённая и разочаровывающая проблема, которая только усугубляется по мере роста Интернета и удаления старых веб-страниц.
Эта проблема называется "гниение ссылок", термин, появившийся в 90-х годах, когда Интернет стал массовым. В начале этого месяца исследовательский центр Pew опубликовал отчёт, показавший, что к трети веб-страниц, существовавших в 2013 году, больше нет доступа.
Вот несколько ключевых выводов из отчета Pew:
- 23% новостных веб-страниц содержат хотя бы одну неработающую ссылку, как и 21% страниц правительственных сайтов.
- 54% страниц Википедии содержат хотя бы одну неработающую ссылку в разделе "Ссылки".
- Почти каждый пятый твит становится недоступным через несколько месяцев после публикации.
Джозеф Ригл, доцент кафедры коммуникационных исследований Северо-Восточного университета, говорит, что проблема связана с инфраструктурой URL-адресов (унифицированных указателей ресурсов).
URL-адреса служат адресами веб-страниц, аналогично физическим адресам домов или офисов. Они удобны для нахождения веб-сайтов, но легко ломаются, говорит Ригл. В 90-х годах Ригл работал с Тимом Бернерсом-Ли, изобретателем Интернета, в World Wide Web Consortium. Проблемы с URL-адресами обсуждались подробно.
Мы знали, что URL-адреса не очень надежны. Если компания реорганизуется или меняет платформу, все URL-адреса могут сломаться.
Идея использования альтернатив URL рассматривалась с начала Интернета. Одно из предложений включало использование URN (унифицированных названий ресурсов), аналогично системе ISBN для книг. Но проблема URN в том, что управление ими требует централизованной организации. Системой ISBN управляет Международное агентство ISBN, назначенное Международной организацией по стандартизации.
Таким образом, у вас есть две проблемы. Либо вы позволяете каждому создавать свои URL-адреса и управлять своими ресурсами, что со временем становится неэффективным, либо вы создаете централизованные репозитории с постоянными идентификаторами, что дорого и сложно поддерживать.
Таким образом, URL-адреса стали основным способом взаимодействия с Интернетом, и проблемы гниения ссылок продолжаются. Архивные организации пытаются решить эту проблему. Примечательные проекты включают Wayback Machine, archive.today и perma.cc, которые позволяют получать доступ к старым версиям веб-страниц и архивировать новые. Однако эти службы существуют нестабильно и благодаря усилиям небольших групп людей, заинтересованных в сохранении онлайн-материалов.
Эти усилия требуют помощи пользователей в создании баз данных, что сложно и недостаточно для адекватного архивирования большого объема Интернета. Эти проблемы касаются не только инфраструктуры и сотрудничества. Ригл добавляет, что есть вопросы авторских прав и правовой защиты для тех, кто занимается сохранением сети.