Миллионы исторических фото на Flickr

31.08.2014 23:36

340

Американский разработчик создает доступную для поиска базу данных из 12 миллионами исторических фото на Flickr сервисе.

Калев Леетару уже загрузил 2.6 миллиона фото на Flickr, которые уже доступны для поиска благодаря функциям, которые автоматически добавляют изображения.

Фотографии и рисунки – подаются из больше чем 600 миллионов страниц библиотечных книг, отсканированных интернет-организацией Архива.

Изображения не были доступны до сих пор.

Господин Литэру сказал, что проекты оцифровки до сих пор сосредотачивались на текстах и игнорировали картины.

«Они сосредоточились на книгах как наборе слов. Это инвертирует что. «В течение всех этих лет все библиотеки переводили свои книги в цифровую форму, придерживаясь PDF формата страницы или тексты доступные для поиска», — сказал он Би-би-си.

«Рассматривая половину тысячелетия, удивительно видеть полный диапазон изображений и как фото вещей менялись в течении времени.

Большинство изображений, фотографий и картин, которые находятся в книгах, не находится ни в одной из картинных галерей мира — оригиналы были давно утрачены».

Размещенные картины показывают времена с 1500 до 1922г, когда ограничений в авторском праве не было.

Комбинированная программа

Господин Литэру начал работу над проектом, исследуя коммуникационные технологии в Джорджтаунском университете в Вашингтоне, округе Колумбия как часть товарищества, спонсируемого Yahoo, владельцем фоторазделения обслуживания Flickr.

Чтобы достигнуть его цели, г-н Литэру разработал свое собственное программное обеспечение, чтобы работать над алгоритмом, благодаря которому были первоначально переведены в цифровую форму книги.

Интернет-Архив использовал оптическое распознавание символов (OCR) программа, чтобы проанализировать каждую из ее 600 миллионов отсканированных страниц, чтобы преобразовать изображение каждого слова в доступный для поиска текст.

Как часть процесса, программное обеспечение обнаруживало, какие части страницы были картинами, чтобы отказаться от них.

Алгоритм г-на Литэру использовал эту информацию, чтобы вернуться к оригинальным просмотрам, извлечения области, которые программа OCR проигнорировала, а затем сохранял каждый отдельный файл в картинном формате Jpeg.

Программное обеспечение также скопировало заголовок для каждого изображения и текст из параграфов, предшествующих изображению и текст после него в книге.

Каждый Jpeg и его связанный текст были тогда отправлены к новой странице Flickr, разрешая общественности находить через обширный каталог, используя средство поиска места.

«Я думаю одна из самых больших новинок, которые сделают люди, будет путешествие во времени через изображения», — сказал г-н Литэру.

«Напечатайте в телефоне, например, и Вы можете видеть, что все начальные картины имеют деловых людей, и главным образом мужчин».

«Тогда Вы видите, что это превращается в большее количество инструментов, чтобы соединить семьи».

«Вы видите другую прогрессию с железной дорогой, где по первым изображениям это было все о новшестве и продвижении, которое собиралось изменить мир, тогда Вы видите его развитие, поскольку это становится частью повседневной жизни».

Архивариусы сказали, что они были впечатлены проектом.

«Нахождение изображения в пределах текстов и пометки больших коллекций изображений является общеизвестно трудными», — сказал доктор Элисон Пирн, старший архивариус из Кембриджского университета и заместитель директора Дарвинского Проекта Корреспонденции».

«Это умный способ обеспечивать как количество и возможность поиска, и это здорово, что она находится в свободном доступе для любого использования».

«Идентификация изображения различают такие моменты, как библиотеки марок и каракули на полях, но исследования всегда были, по крайней мере, в части о прозорливости, и кто знает, что люди смогут с ними делать».

Собственное стремление г-на Литэру — связь с самой известной энциклопедией Интернета, как только его проект будет закончен в следующем году.

«Возьмите случайную страницу об историческом событии и есть, вероятно, хороший шанс, что Вы собираетесь найти изображение именно здесь, которое в некотором роде касается того случая или местоположения».

«Возможность в основном обогатить Wikipedia будет прорывом».

Он добавил, что также запланировал предложить свой кодекс другим.

«Любая библиотека могла повторить этот процесс», — объяснил он.

«Это — фактически моя надежда, что библиотеки во всем мире управляют тем же самым процессом своих переведенных в цифровую форму книг, чтобы постоянно расширять эту вселенную изображений».