Все мы когда-то сталкивались с этим: при просмотре веб-страниц вы нажимаете на неработающую ссылку и получаете сообщение о том, что запрашиваемая страница не существует. Это распространённая и разочаровывающая проблема, которая только усугубляется по мере роста Интернета и удаления старых веб-страниц.

Эта проблема называется "гниение ссылок", термин, появившийся в 90-х годах, когда Интернет стал массовым. В начале этого месяца исследовательский центр Pew опубликовал отчёт, показавший, что к трети веб-страниц, существовавших в 2013 году, больше нет доступа.

Вот несколько ключевых выводов из отчета Pew:

  • 23% новостных веб-страниц содержат хотя бы одну неработающую ссылку, как и 21% страниц правительственных сайтов.
  • 54% страниц Википедии содержат хотя бы одну неработающую ссылку в разделе "Ссылки".
  • Почти каждый пятый твит становится недоступным через несколько месяцев после публикации.

Джозеф Ригл, доцент кафедры коммуникационных исследований Северо-Восточного университета, говорит, что проблема связана с инфраструктурой URL-адресов (унифицированных указателей ресурсов).

URL-адреса служат адресами веб-страниц, аналогично физическим адресам домов или офисов. Они удобны для нахождения веб-сайтов, но легко ломаются, говорит Ригл. В 90-х годах Ригл работал с Тимом Бернерсом-Ли, изобретателем Интернета, в World Wide Web Consortium. Проблемы с URL-адресами обсуждались подробно.

Мы знали, что URL-адреса не очень надежны. Если компания реорганизуется или меняет платформу, все URL-адреса могут сломаться.

Идея использования альтернатив URL рассматривалась с начала Интернета. Одно из предложений включало использование URN (унифицированных названий ресурсов), аналогично системе ISBN для книг. Но проблема URN в том, что управление ими требует централизованной организации. Системой ISBN управляет Международное агентство ISBN, назначенное Международной организацией по стандартизации.

Таким образом, у вас есть две проблемы. Либо вы позволяете каждому создавать свои URL-адреса и управлять своими ресурсами, что со временем становится неэффективным, либо вы создаете централизованные репозитории с постоянными идентификаторами, что дорого и сложно поддерживать.

Таким образом, URL-адреса стали основным способом взаимодействия с Интернетом, и проблемы гниения ссылок продолжаются. Архивные организации пытаются решить эту проблему. Примечательные проекты включают Wayback Machine, archive.today и perma.cc, которые позволяют получать доступ к старым версиям веб-страниц и архивировать новые. Однако эти службы существуют нестабильно и благодаря усилиям небольших групп людей, заинтересованных в сохранении онлайн-материалов.

Эти усилия требуют помощи пользователей в создании баз данных, что сложно и недостаточно для адекватного архивирования большого объема Интернета. Эти проблемы касаются не только инфраструктуры и сотрудничества. Ригл добавляет, что есть вопросы авторских прав и правовой защиты для тех, кто занимается сохранением сети.