15 Дек 2009

В разделе В сети

Машина времени существует!

timemachineСразу оговорюсь —  речь не пойдет о Time machine — замечательном приложении для MacOS,  которое ежедневно создаёт резервные копии каждого файла на компьютере пользователя (включая файлы самой операционной системы), позволяя тем самым восстановить любой изменённый или удалённый пользователем файл, начиная с даты установки.

Нет, речь пойдет о восстановлении данных, которые хранятся не на локальном компьютере, а в Интернете. Нет ничего более изменчивого, чем Интернет — страницы в нем появляются и исчезают, и сколько нервов приходится тратить, пытаясь восстановить страницу, расположенную на сайте, который по разным причинам перестал работать. Или страницу, удаленную авторами — случайно или намеренно.

Речь пойдет о возможности заглянуть в прошлое Интернета. Архивов Интернета существует множество, идея сохранения эфемерных веб-страничек, время жизни которых может быть сравнимо с жизнью бабочек-однодневок завладела умами многих.

Самый известный проект такого рода — «Архив Интернета»(The Wayback Machine).

Archive.org – архив Интернета, создан в 1996 году Брюстером Кэйхлом, в Сан-Франциско. Организация создавалась для построения “библиотеки Интернета”, чтобы обеспечить свободный доступ для исследователей, историков, и ученых к сайтам и другим культурным экспонатам, которые существуют в цифровом формате.

В собраниях архива есть тексты, аудио записи, фильмы, программное обеспечение и заархивированные веб-страницы.Размер архива — 3 петабайта (в ближайшее время увеличится до 5 петабайтов). Он содержит 85 миллиардов веб-страниц.

Архив Интернета — забавное место, в котором можно проследить историю изменения веб-страничек на практически любом сайте. Любопытно иногда бывает окунуться в историю. Вот как выглядит, например, архив сайта Учебного центра высоких технологий ОРТ-Петербург, в котором я работаю:

web_archive

А вот как выглядела страница сайта в далеком 1996 году:

screenshot_1996

А вот так та же страница выглядела в 2005:

screenshot_2005

К сожалению, в архиве оказываются не всё, и, если перед Вами стоит задача найти какую-то страницу, удаленную с сайта, то Архив.орг — вам не помощник. Но зато он позволяет проследить комплексные изменения на сайте — смену дизайна, навигации и т.п.

К сожалению, объем хранящейся на сервере информации сегодня, судя по всему, зашкаливает, и создатели архива стали выборочно подходить к сохранению страниц. Так, на приложенном скриншоте видно, что сайт ОРТа перестал индексироваться «Машиной времени»  в 2008 году, и, соответственно, изменений за последние два года Вы, увы, не увидите.

Надо отметить, что программа «Архив Интернета» работает в тесном сотрудничестве с Библиотекой Конгресса США.

На сайте библиотеки есть проект «Минерва», в котором ведется летопись самых интересных с точки зрения библиотекарей сайтов

Library of Congress Web Archives

Иногда бывает любопытно взглянуть и сравнить. Например, версию американского сайта по нанотехнологиям образца 2006 года и «российский сайт  №1» на ту же самую тему 2009 года.

Увы, вся эта красота не решает главной задачи, поставленной в начале заметки. Я могу увидеть «слепок» сайта пятилетней давности, но не могу увидеть страницу, которая была удалена вчера.

И тут нам на помощь приходит в кэше поисковой машины.

Сканируя Интернет, делает снимок экрана каждой просмотренной страницы и сохраняет его в виде резервной копии на случай, если исходная страница недоступна. За ссылкой «Сохранено в кэше» кроется версия страницы на момент ее последней индексации. использует сохраненное в кэше содержание для оценки релевантности страницы относительно запроса поиска.

При просмотре страницы из кэша сверху появится заголовок, где указано, что, возможно, это не самая последняя версия страницы. В сохраненной копии условия поиска выделяются цветом, чтобы было проще оценить релевантность страницы.

Ссылка «Сохранено в кэше» не показывается для сайтов, которые еще не были проиндексированы, а также для тех, чьи владельцы запросили нас не сохранять в кэше содержание их сайтов.

Для просмотра кэшированной страницы можно воспользоваться специальным оператором cache:, с помощью которого можно сразу получать страницы из кэша по их URL. Этой возможностью в принципе можно пользоваться как своеобразным бэкапом видимых для Google веб-страниц: даже если страница будет удалена со своего сайта, на Google может остаться ее копия.

Указав в поисковом запросе  cache:url вы получите список кэшированных  Google версий страницы, url которой вы напечатали. Например, указав   [ cache:shperk.ru ] вы получите снимок главной страницы моего сайта в момент последнего посещения его поисковым ботом Google. На момент написания статьи это было 14 дек 2009 10:08:14 GMT

Мой блог находят по следующим фразам
скачать microsoft word 2007 бесплатно без регистрации
microsoft office word 2007 скачать бесплатно ключ
microsoft office 2007 скачать бесплатно
офис 2007 скачать с ключом бесплатно
восстановить данные после форматирования Mac OS
серийный номер для microsoft office 2007

Возможно, Вас заинтересует также информация по следующим ключевым словам, которую обычно ищут на моем сайте
программы для восстановление данных после форматирования
где outlook хранит данные
microsoft office 2007 скачать бесплатно
загрузит бесплатно word 2007 пробная версия
какой программой восстановить удаленные файлы после форматирования
power point скачать бесплатно пиратскую

Метки:, , ,

, ,

  • http://shperk.ru shperk

    Места уже давно не хватает, поэтому сохраняются, увы, не все страницы. Кроме того, естественно, так как это внешнеее сохранение, то динамические страницы превращаются в статические, что тоже не уменьшает объем данных.
    Но это, к сожалению издержки, с которыми все равно ничего сделать нельзя.

  • http://shperk.ru/shperk/aHR0cDovL3NoLXRlaC5ydS8= Вадим

    Полезная задумка. Это когда весь рунет занимал 40 Гб, а сейчас интернет так стремительно развивается, что скоро у них не хватит места чтобы хранить данные.

  • http://shperk.ru shperk

    Да, по английски ее название звучит The Wayback Machine — машина заднего
    хода

  • http://shperk.ru/shperk/aHR0cDovL2RlLW96LmJsb2dzcG90LmNvbS8= Michael de`Oz

    Слышал про такие проекты. Но это машина времени в одном направлении