В повседневной суете легко забыть о непостоянстве интернета. Страницы могут меняться без предупреждения и даже целые сайты в одночасье пропадают. Связана ли проблема с работой серверов или желанием владельца просто закрыть ресурс, у вас всегда есть возможность просмотреть сохраненную копию сайта
Google регулярно индексирует сайты для улучшения поиска, а вместе с тем и сохраняет копии (снимки) страниц. Веб браузеры для ускорения загрузки сайтов, также сохраняют страницы целиком или их отдельные элементы в кэше, специальной папке на вашем жестком диске. Поэтому в случае недоступности ресурсов существует несколько методов получения доступа к сохраненной копии.
Поиск Google
Просмотр кэшированной страницы в поиске Google начинается точно также, как и выполнение любого поискового запроса. Просто введите название сайта, а затем в результатах поиска, рядом с адресом ресурса кликните на стрелку и выберете пункт Сохраненная копия . После загрузки страницы, Google оповестит вас, о том, что вы просматриваете снимок страницы и о том, когда он был сделан. У вас также будет возможность просмотреть исключительно текст, а также исходный код сайта.
Как найти и просмотреть удаленную страницу Вконтакте?
Интернет архив и Wayback Machine
Целый ряд организаций занимается сохранением истории интернета и наиболее известной среди них является некоммерческий Интернет Архив (Internet Archive). Он позволяет получить доступ к огромному множеству сайтов, текстов, видео, аудио, программного обеспечения и картинок, которые трудно найти где-либо еще
Отсортируйте эти данные при помощи Wayback Machine (машина прошлого). Просматривайте сохраненные копии как работающих сайтов, так и уже канувших в лету. Просто введите адрес ресурса, который хотите увидеть и сервис покажет вам все имеющиеся снимки. Выберите на календаре необходимую дату и посмотрите, как сайт выглядел в это время. Wayback Machine – это отличный инструмент для знакомства с историей интернета.
Расширения для браузера
Существуют и специальные дополнения для браузеров, позволяющие просматривать сохраненные версии страниц. Расширение Web Cache Viewer позволяет не только загрузить страницу из локального кэша на вашем компьютере, но и также автоматически найти ее при помощи сервиса Wayback Machine. Для пользователей Firefox существует аналогичное дополнение со схожим функционалом Web Archives .
Веб инструменты
Если ни один из вышеперечисленных способов вам не помог, то возможно вам помогут еще пара инструментов. Например, сайт Cached Page позволяет искать копии страниц сразу на нескольких ресурсах – поиск Google, Интернет Архив и WebCite. Также вы можете попробовать сервис Google Cache Checker , который проверяет как давно индексировался сайт и есть ли его сохраненные копии.
Не забудьте подписаться и поставить лайк. Впереди будет еще много крутых статей.
Источник: dzen.ru
Достаём потерянные статьи из сетевых хранилищ
Решение рассматривается (пока) только для одного сайта — того, на котором мы находимся. Идея появилась в результате того, что один пользователь сделал юзерскрипт, который переадресует страницу на кеш Гугла, если вместо статьи видим «Доступ к публикации закрыт». Понятно, что это решение будет работать лишь частично, но полного решения пока не существует.
Как достать сайт или страницу из кэша
Можно повысить вероятность нахождения копии выбором результата из нескольких сервисов. Этим стал заниматься скрипт HabrAjax (наряду с 3 десятками других функций). Теперь (с версии 0.859), если пользователь увидел полупустую страницу, с которой можно перейти лишь на главную, в личную страницу автора (если повезёт) и назад, юзерскрипт предоставляет несколько альтернативных ссылок, в которых можно попытаться найти потерю. И тут начинается самое интересное, потому что ни один сервис не заточен на качественное архивирование одного сайта.
Кстати, статья и исследования порождены интересным опросом А вас раздражает постоянное «Доступ к публикации закрыт»? и скриптом пользователя dotneter — комментарий habrahabr.ru/post/146070/#comment_4914947.
Требуется, конечно, более качественный сервис, поэтому, кроме описания нынешней скромной функциональности (вероятность найти в Гугл-кеше и на нескольких сайтах-копировщиках), поднимем в статье краудсорсинговые вопросы — чтобы «всем миром» задачу порешать и прийти к качественному решению, тем более, что решение видится близким для тех, кто имеет сервис копирования контента. Но давайте обо всём по порядку, рассмотрим все предложенные на данный момент решения.
Кеш Гугла
В отличие от кеша Яндекса, к нему имеется прямой доступ по ссылке, не надо просить пользователя «затем нажать кнопку „копия“». Однако, все кеширователи, как и известный archive.org, имеют ряд ненужных особенностей.
1) они просто не успевают мгновенно и многократно копировать появившиеся ссылки. Хотя надо отдать должное, что к популярным сайтам обращение у них частое, и за 2 и более часов они кешируют новые страницы. Каждый в своё время.
2) далее, возникает такая смешная особенность, что они могут чуть позже закешировать пустую страницу, говорящую о том, что «доступ закрыт».
3) поэтому результат кеширования — как повезёт. Можно обойти все такие кеширующие ссылки, если очень надо, но и оттуда информацию стоит скопировать себе, потому что вскоре может пропасть или замениться «более актуальной» бессмысленной копией пустой страницы.
Кеш archive.org
Он работает на весь интернет с мощностями, меньшими, чем у поисковиков, поэтому обходит страницы какого-то далёкого русскоязычного сайта редко. Частоту можно увидеть здесь: wayback.archive.org/web/20120801000000*/http://habrahabr.ru
Да и цель сайта — запечатлеть фрагменты истории веба, а не все события на каждом сайте. Поэтому мы редко будем попадать на полезную информацию.
Кеш Яндекса
Нет прямой ссылки, поэтому нужно просить (самое простое) пользователя нажать на ссылку «копия» на странице поиска, на которой будет одна эта статья (если её Яндекс вообще успел увидеть).
Как показывает опыт, статья, повисевшая пару часов и закрытая автором, довольно успешно сохраняется в кешах поисковиков. Впоследствии, скорее всего, довольно быстро заменится на пустую. Всё это, конечно, не устроит пользователей веба, который по определению должен хранить попавшую в него информацию.
Yahoo Pipes
pipes.yahoo.com/pipes/search?q=habrahabr+fully=0 и прочие.
Довольно интересное решение. Те, кто умеет их настраивать, возможно, полноценно решат задачу архивирования RSS. Из имеющегося, я не нашёл пайпов с поиском статьи по её номеру, поэтому пока нет прямой ссылки на такие сохранённые полные статьи. (Кто умеет с ним работать — прошу изготовить такую ссылку для скрипта.)
Многочисленные клонировщики
Все из них болеют тем, что не дают ссылки на статью по её номеру, не приводят полный текст статьи, а некоторые вообще ограничиваются «захабренным» или «настолько ленивы», что копируют редко (к примеру, раз в день), что актуально не всегда. Однако, если хотя бы один автор копировщика подкрутит движок на сохранение полноценного и актуального контента, он окажет неоценимую услугу интернету, и его сервис займёт главное место в скрипте HabrAjax.
Из живых я нашёл пока что 4, некоторые давно существовавшие (itgator) на данный момент не работали. В общем, пока что они почти бесполезны, потому что заставляют искать статью по названию или ключевым словам, а не по адресу, по которому пользователь пришёл на закрытую страницу (а по словам отлично ищет Яндекс и не только по одному их сайту). Приведены в скрипте для какой-нибудь полезной информации.
Задача
Перед сообществом стоит задача, не утруждая организаторов сайта, довести продукт до качественного, не теряющего информацию ресурса. Для этого, как правильно заметили в комментариях к опросу, нужен архиватор актуальных полноценных статей (и комментариев к ним заодно).
В настоящее время неполное решение её, как описано выше, выглядит так:
Если искать в Яндексе, то подобранный адрес выведет единственную ссылку (или ничего):
Нажав ссылку «копия», увидим (если повезёт) сохранённую копию (страница выбрана исключительно для актуального на данный момент примера):
В Гугле несколько проще — сразу попадаем на копию, если тоже повезёт, и Гугл успел сохранить именно то, что нам надо, а не дубль отсутствующей страницы.
Забавно, что скрипт теперь предлагает «выбор альтернативных сервисов» и в этом случае («профилактические работы»):
Жду предложений по добавлению сервисов и копировщиков (или хотя бы проектов) (для неавторизованных — на почту spmbt0 на известном гуглоресурсе, далее выберем удобный формат).
UPD 23:00: опытным путём для mail.ru было выяснено строение прямой ссылки на кеш:
‘http://hl.mailru.su/gcached?q=cache:’+ window.location
Знатоки или инсайдеры, расскажите, что это за ссылка, насколько она стабильна (не изменится ли, например, домен 3-го уровня), что значит приставка «g»-cached? Значит ли это кеш Гугла или это кеш движка Gogo? Пример.
Добавил ссылки мейла и ВК в обновление скрипта (habrAjax) (0.861), теперь там — на 2 строчки больше.
- habrajax
- google cache
- кеширование страниц
Источник: habr.com
Как посмотреть кэшированную версию сайта
Хотите посмотреть старые веб-страницы или сайт, который сейчас недоступен? В этой статье мы расскажем, как получить доступ к кэшу веб-страниц при помощи Google, Яндекс, Wayback Machine и других инструментов.
Оглавление показать
- Поиск Google
- Поиск Яндекс
- Wayback Machine
- Archive.Today
- Расширения для браузеров
- Веб-инструменты
Легко забыть о том, что интернет является весьма непостоянной средой. Страницы могут быть отредактированы без предупреждения, сайты исчезнуть навсегда.
Существует несколько причин, по которым теряется доступ к сайтам и их страницам. Может быть, не работают серверы, на которых они размещены. Владелец сайта может изменить или удалить содержимое, которое вы пытаетесь найти. В таком случае на помощь приходит кэшированная версия.
Роботы Google и Яндекс постоянно обходят новые страницы и выполняют их индексирование. При этом также сохраняются резервные копии посещённых страниц. Тем же занимаются веб-браузеры, чтобы ускорить загрузку страниц.
Копии сохраняются в кэш. Это раздел вашего накопителя, который временно доступен, если сайт или часть его содержимого недоступны в интернете. Не все сайты индексируются Google или сохраняются в кэш. Если это происходит, давайте узнаем, как получить к ним доступ.
Поиск Google
Просмотр сохранённых в кэше Google страниц начинается так же, как и любой другой поиск Google. Когда вы ввели поисковый запрос и видите результаты, нажмите на стрелку рядом с URL-адресом и выберите опцию «Сохранённая копия» для просмотра последних сохранённых в Google версий страниц.
Когда сайт загрузился, Google уведомляет, что это устаревшая версия, и указывает дату её создания. Также есть опция просмотра только текстового варианта страница и исходного кода. Вы не сможете переходить на другие страницы и при этом оставаться в кэш-версии. Если вы попытаетесь перейти по ссылке, откроется действующая версия сайта.
Поиск Яндекс
Просмотр сохранённых в кэше Яндекса страниц делается так же, как и у Google. Когда вы ввели поисковый запрос и видите результаты, нажмите на стрелку рядом с URL-адресом и выберите опцию «Сохранённая копия».
Wayback Machine
Существуют организации, которые пытаются сохранить историю интернета. Самой известной такой организацией является некоммерческая Internet Archive, где хранятся веб-сайты, текст, видео, аудиозаписи, программное обеспечение и изображения, которые трудно найти где-то ещё. Старые версии веб-сайта вы можете посмотреть также на Wayback Machine.
Введите URL-адрес и движок архивного поиска покажет календарь, где отображается, когда Wayback Machine сохранила эту страницу. Нажмите на дату в календаре для просмотра того, как сайт выглядел в этот день. Wayback Machine и является отличным способом изучения истории интернета.
Archive.Today
Сайт архивирования Archive.Today позволяет пользователям сохранять текущие веб-страницы и искать ранее сохранённые. Введите URL-адрес для сохранения или для просмотра сохранённых страниц, которые также можно скачивать на компьютер.
Если вы хотите посмотреть архивные версии веб-сайта, введите его адрес в поисковую панель и появятся результаты с домашней страницей и связанными отдельными страницами. Если есть больше одной версии одной страницы, они будут показываться все вместе для упрощения просмотра.
Расширения для браузеров
Существуют расширения для браузеров на все случаи жизни, в том числе и для доступа к кэшированной версии сайта.
Добавьте в Chrome расширение Web Cache Viewer и нажмите правой кнопкой мыши на любой странице для просмотра версии из Google или Wayback Machine. Расширение под названием View Page Archive https://trashexpert.ru/software/browsers/how-to-view-a-cached-version-of-a-website/» target=»_blank»]trashexpert.ru[/mask_link]