Калев Леетару уже загрузил 2.6 миллиона фото на Flickr, которые уже доступны для поиска благодаря функциям, которые автоматически добавляют изображения.
Фотографии и рисунки – подаются из больше чем 600 миллионов страниц библиотечных книг, отсканированных интернет-организацией Архива.
Изображения не были доступны до сих пор.
Господин Литэру сказал, что проекты оцифровки до сих пор сосредотачивались на текстах и игнорировали картины.
«Они сосредоточились на книгах как наборе слов. Это инвертирует что. «В течение всех этих лет все библиотеки переводили свои книги в цифровую форму, придерживаясь PDF формата страницы или тексты доступные для поиска», — сказал он Би-би-си.
«Рассматривая половину тысячелетия, удивительно видеть полный диапазон изображений и как фото вещей менялись в течении времени.
Большинство изображений, фотографий и картин, которые находятся в книгах, не находится ни в одной из картинных галерей мира — оригиналы были давно утрачены».
Размещенные картины показывают времена с 1500 до 1922г, когда ограничений в авторском праве не было.
Комбинированная программа
Господин Литэру начал работу над проектом, исследуя коммуникационные технологии в Джорджтаунском университете в Вашингтоне, округе Колумбия как часть товарищества, спонсируемого Yahoo, владельцем фоторазделения обслуживания Flickr.
Чтобы достигнуть его цели, г-н Литэру разработал свое собственное программное обеспечение, чтобы работать над алгоритмом, благодаря которому были первоначально переведены в цифровую форму книги.
Интернет-Архив использовал оптическое распознавание символов (OCR) программа, чтобы проанализировать каждую из ее 600 миллионов отсканированных страниц, чтобы преобразовать изображение каждого слова в доступный для поиска текст.
Как часть процесса, программное обеспечение обнаруживало, какие части страницы были картинами, чтобы отказаться от них.
Алгоритм г-на Литэру использовал эту информацию, чтобы вернуться к оригинальным просмотрам, извлечения области, которые программа OCR проигнорировала, а затем сохранял каждый отдельный файл в картинном формате Jpeg.
Программное обеспечение также скопировало заголовок для каждого изображения и текст из параграфов, предшествующих изображению и текст после него в книге.
Каждый Jpeg и его связанный текст были тогда отправлены к новой странице Flickr, разрешая общественности находить через обширный каталог, используя средство поиска места.
«Я думаю одна из самых больших новинок, которые сделают люди, будет путешествие во времени через изображения», — сказал г-н Литэру.
«Напечатайте в телефоне, например, и Вы можете видеть, что все начальные картины имеют деловых людей, и главным образом мужчин».
«Тогда Вы видите, что это превращается в большее количество инструментов, чтобы соединить семьи».
«Вы видите другую прогрессию с железной дорогой, где по первым изображениям это было все о новшестве и продвижении, которое собиралось изменить мир, тогда Вы видите его развитие, поскольку это становится частью повседневной жизни».
Архивариусы сказали, что они были впечатлены проектом.
«Нахождение изображения в пределах текстов и пометки больших коллекций изображений является общеизвестно трудными», — сказал доктор Элисон Пирн, старший архивариус из Кембриджского университета и заместитель директора Дарвинского Проекта Корреспонденции».
«Это умный способ обеспечивать как количество и возможность поиска, и это здорово, что она находится в свободном доступе для любого использования».
«Идентификация изображения различают такие моменты, как библиотеки марок и каракули на полях, но исследования всегда были, по крайней мере, в части о прозорливости, и кто знает, что люди смогут с ними делать».
Собственное стремление г-на Литэру — связь с самой известной энциклопедией Интернета, как только его проект будет закончен в следующем году.
«Возьмите случайную страницу об историческом событии и есть, вероятно, хороший шанс, что Вы собираетесь найти изображение именно здесь, которое в некотором роде касается того случая или местоположения».
«Возможность в основном обогатить Wikipedia будет прорывом».
Он добавил, что также запланировал предложить свой кодекс другим.
«Любая библиотека могла повторить этот процесс», — объяснил он.
«Это — фактически моя надежда, что библиотеки во всем мире управляют тем же самым процессом своих переведенных в цифровую форму книг, чтобы постоянно расширять эту вселенную изображений».