botolph
Full Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору ironwit Цитата: Значит задача такова - есть очень большое количество e-book в различных форматах. От текстового (lib.ru) до pdf (что это , все знают ) Нужно иметь программу которая может создать список всей литературы, с возможностью снятия нескольких страниц из текста, опись, поиск по словам, группировку, возможность работать с отдельными носителями (то есть что-то на дисках, что то на винте, что-то в инете...) | Я эту задачу уже начал решать - очень рад, что и Вам она интересна - а то народ осень плохо (т.е. никак) не прореагировал на мое предложение - см. мой пост на e-Book (http://forum.ru-board.com/topic.cgi?forum=35&bm=1&topic=15722) пардон не помню страницу так что просто повторю: ========== Я думал, как сделать каталог своих электр. статей (десяток тысяч) и понял, что 99,99% процентов вопросов будут типа: "где статья/книга такого-то с таким - примерно - названием или такими словами где-то во введении". Это на > 50% охватит также "что почитать про..." И хотел сделать так - пишу BAT (у меня Windows) он проходит по всем поддиректориям (сделан!) и с помощью Ghostscript автоматически одна-две первые страницы любого PDF/PS - соотв. EmTeX'овский dviscr для DVI, djvulibr'овские утилиты для DJVu (эти вещи уже тоже работают!) автоматически печатает в TIFF (или кто что любит) и переносит в одну директорию генерируя уникальные имена (создавая лог где это взято) потом FineReader (или как их теперь там) - сделав пару опечаток в каждом термине - переводит в тексты. Потом простейший текстовый поисковик ищет заданное сочетание слов (автор - название - или ключевые, отражающие тему), так, чтобы эти слова были "близко друг к другу" и поближе к началу распознанного не обязательно в данном порядке и не слишком чувствует пару-тройку опечаток распознавания (Что? Нет, я сам программ не имею... Мне ка-а-ц-ца...) Ну Google же работает! и не так плохо, учитывая объемы. Подобное мероприятие, если его вдумчиво разработать (по Вирту, сначала сверху вниз... ну, я сильно отстал от жизни) позволить любому запустить разок (надо-о-лго) это банду программ у себя в книжном архиыве и слить в единую "базу" Потом update легко - если договориться вновь заносимые файлы какой-нибудь touch или как их там ставить текущую дату или еще лучше (другой пакет) автоматически сравнит структуру директорий на данный момент и на предыдущий проход... В любом случае подобные распознанные текстовики - АРХИВАЖНЫ И АРХИНУЖНЫ. Для тысяч статей в моем архиве это единственный выход. И прибамбасы типа вывода на экран самих найденых TIFF - ну, добавить по вкусу и перемешать. ====================== Уже так сделал в черновом варианте для книг - не так уж много времени это и заняло.. Ваше мнение? |