Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » каталогизатор документов

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7

Открыть новую тему     Написать ответ в эту тему

ironwit

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Темы про каталогизаторы были, но какие то разрозненные. Надо как то это все в кучу собрать.
 
Значит задача такова - есть очень большое количество e-book в различных форматах. От текстового (lib.ru) до pdf (что это , все знают )
 
Нужно иметь программу которая может создать список всей литературы, с возможностью снятия нескольких страниц из текста, опись, поиск по словам, группировку, возможность работать с отдельными носителями (то есть что-то на дисках, что то на винте, что-то в инете...)
 
Кто что может посоветовать? Я думаю что у многих есть или такая проблема, или какие то способы ее решения.
 
Помните - рассказывая о своем способе решения этой проблемы здесь, Вы, возможно узнаете как ее оптимизировать.
 
Успеха всем нам.

----------
Don't drink, and drive. Smoke and fly.

Всего записей: 1892 | Зарегистр. 11-10-2002 | Отправлено: 13:04 10-11-2003
botolph

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ironwit

Цитата:
Значит задача такова - есть очень большое количество e-book в различных форматах. От текстового (lib.ru) до pdf (что это , все знают  )  
 
Нужно иметь программу которая может создать список всей литературы, с возможностью снятия нескольких страниц из текста, опись, поиск по словам, группировку, возможность работать с отдельными носителями (то есть что-то на дисках, что то на винте, что-то в инете...)  
 

Я эту задачу уже начал решать - очень рад, что и Вам она интересна - а то народ
осень плохо (т.е. никак) не прореагировал на мое предложение - см. мой
пост на e-Book (http://forum.ru-board.com/topic.cgi?forum=35&bm=1&topic=15722)
пардон не помню страницу так что просто повторю:
 
==========
 
Я думал, как сделать каталог своих электр. статей (десяток тысяч)
и понял, что 99,99% процентов вопросов будут типа:
"где статья/книга такого-то с таким - примерно - названием
или такими словами где-то во введении".
Это на > 50% охватит также "что почитать про..."
 
И хотел сделать так - пишу BAT (у меня Windows) он проходит
по всем поддиректориям (сделан!)  
и с помощью Ghostscript автоматически одна-две первые страницы  
любого PDF/PS - соотв. EmTeX'овский dviscr для DVI,  
djvulibr'овские утилиты для DJVu (эти вещи уже тоже работают!)
автоматически печатает в TIFF (или кто что любит)  
и переносит в одну директорию  
генерируя уникальные имена (создавая лог где это взято)
потом FineReader (или как их теперь там)
- сделав пару опечаток в каждом термине - переводит в тексты.
 
Потом простейший текстовый поисковик ищет заданное сочетание слов
(автор - название - или ключевые, отражающие тему),
так, чтобы эти слова были "близко друг к другу"
и поближе к началу распознанного не обязательно в данном порядке
и не слишком чувствует пару-тройку опечаток распознавания
(Что? Нет, я сам программ не имею... Мне ка-а-ц-ца...)
Ну Google же работает! и не так плохо, учитывая объемы.
 
Подобное мероприятие, если его вдумчиво разработать  
(по Вирту, сначала сверху вниз... ну, я сильно отстал от жизни)
позволить любому запустить разок (надо-о-лго) это банду
программ у себя в книжном архиыве и слить в единую "базу"  
Потом  update легко - если договориться вновь заносимые  
файлы какой-нибудь touch или как их там ставить  
текущую дату или еще лучше (другой пакет) автоматически  
сравнит структуру директорий
на данный момент и на предыдущий проход...
 
В любом случае подобные распознанные текстовики
 - АРХИВАЖНЫ И АРХИНУЖНЫ. Для тысяч статей в моем архиве
это единственный выход.
 
И прибамбасы типа вывода на экран самих найденых  TIFF -
ну, добавить по вкусу и перемешать.
 
======================
 
Уже так сделал в черновом варианте для книг - не так уж много времени это и заняло..
 
Ваше мнение?
 
 

Всего записей: 466 | Зарегистр. 24-09-2003 | Отправлено: 13:43 10-11-2003
ironwit

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору

Цитата:
и с помощью Ghostscript автоматически одна-две первые страницы  
любого PDF/PS  

 
а берет киррилицу?
 

Цитата:
потом FineReader (или как их теперь там)

 
запускать ручками?
 
А в общем идея неплоха, и что интересно ее можно автоматизировать  Но, на машине обязательно должен присутствовать не очень чистый софт (что не очень хорошо).
 
Для начала можно конечно и так. Кто еще что скажет?

----------
Don't drink, and drive. Smoke and fly.

Всего записей: 1892 | Зарегистр. 11-10-2002 | Отправлено: 15:50 10-11-2003
mihas83



Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ironwit
Очень актуальная тема... И здесь (на форуме) была бы интересна нескольким книжным "развалам"... Тем более у тебя есть "затравка" - твоя filelist.exe...
Между прочим, можна потом приспособить и для других задач...

----------
Мы знаем: время растяжимо. Оно зависит от того,
Какого рода содержимым Вы заполняете его. (C. Маршак)

Всего записей: 7832 | Зарегистр. 15-07-2003 | Отправлено: 21:44 10-11-2003
ironwit

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
mihas83
у меня есть не только эта затравка Я хочу нормальный проект реализовать на эту тему. Так что присоединяйтесь, очень ведь много страждущих.

----------
Don't drink, and drive. Smoke and fly.

Всего записей: 1892 | Зарегистр. 11-10-2002 | Отправлено: 08:31 11-11-2003
botolph

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ironwit

Цитата:
 
а берет киррилицу?  

Да хоть иероглифы (рисунки, портреты ... - ведь выдается
ГРАФИЧЕСКИЙ файл - ну конечно, если в PS/PDF/DJV были ВЛОЖЕНЫ
шрифты или там уже был сканированный текст - ну а я и не встречал
чтоб НЕ вложеннные шрифты кроме Times Roman и иже с ними.
 
В этом проблем нет
 

Цитата:
запускать ручками?  

 
Нет - в том смысле что можно зарядить распознавание сотен файлов
зараз с сохранением в файлы такого же имени - только расширение
будет другое (txt есс-но)  
 
По поводу "нечистого" софта - а только распознавалка и будет нечистой.
остальное - совершенно официальное freeware.
Если очень чистоплюйство следует соблюсти - Вы можете
сделать работу по генериции tiff  на своем месте - и отдать по сети другому человеку
с лицензией (или "русской лицензией" для распознавания.
Объем не так уж огромен - один tiff будет около 100 Кбайт
 
ОСНОВНАЯ ПРОБЛЕМА - я не нашел той толерантной к ошибкам программы
поимка в текстовых файлах - тем более что хотелось бы навороченную,
удобную для наших целей...
 
Если есть мысли как сделать/взять - давайте более подробно
опишем спецификацию. В принципе это хорошая дипломная работа
наскольким студентам - тут и нетривиальные алгоритмы, и прочие прелести интерфейса.
У меня таких студентов нет и не предвидится.
Ведь в принципе такаяя вещь зашита в любую программу распознавания текста -
когда распознанное с неточными буквами исправляет по словарю.

Всего записей: 466 | Зарегистр. 24-09-2003 | Отправлено: 11:22 11-11-2003
ironwit

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
botolph

Цитата:
ОСНОВНАЯ ПРОБЛЕМА - я не нашел той толерантной к ошибкам программы  
поимка в текстовых файлах - тем более что хотелось бы навороченную,  
удобную для наших целей...  

 
со всеми пунктами согласен. А вот этот поподробней, какие требования к поиску... Или найдем что нить, или напишем... Все алгоритмы уже давно разработаны, только описать их надо и применить

----------
Don't drink, and drive. Smoke and fly.

Всего записей: 1892 | Зарегистр. 11-10-2002 | Отправлено: 12:24 11-11-2003
Max_Guest



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ironwit
 
Ты пробовал использовать следующее:
 
Advanced eBook Explorer 1.1
 
This e-book cataloging utility shows file name and size, ISBN, title, author, publisher, category and the number of pages.  
It also displays permissions information, including whether or not you can copy text selections, print pages or lend the book to someone else.  
 
Technical information like creation and modification dates is also included.  
 
 
 

Всего записей: 969 | Зарегистр. 15-06-2003 | Отправлено: 14:59 11-11-2003
ironwit

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Max_Guest

Цитата:
Ты пробовал использовать следующее:  
 
Advanced eBook Explorer 1.1  

 
пошел пробовать...
 
Добавлено
не могу скачать, вышлите кто нить на профильное плс

----------
Don't drink, and drive. Smoke and fly.

Всего записей: 1892 | Зарегистр. 11-10-2002 | Отправлено: 15:57 11-11-2003
NSentinel



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ironwit
Идея хорошая, я поддержу если надо Но тогда может перейти в другой форум (Прикладное программирование) и продолжить обсуждение там?
 
Сейчас я выкручиваюсь так:
 
Поиск по именам и описаниям - WhereIsIt
 
Поиск по содержимому - dtSearch
 
В принципе, мне не хватает всего двух возможностей:  
1) автоматической классифкации документов по признакам
2) индексирования CHM и RAR

Всего записей: 138 | Зарегистр. 27-08-2002 | Отправлено: 16:34 11-11-2003
ironwit

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
NSentinel

Цитата:
Идея хорошая, я поддержу если надо  Но тогда может перейти в другой форум (Прикладное программирование) и продолжить обсуждение там?  

 
ты на чем пишешь?
 


----------
Don't drink, and drive. Smoke and fly.

Всего записей: 1892 | Зарегистр. 11-10-2002 | Отправлено: 19:04 11-11-2003
NSentinel



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ironwit

Цитата:
ты на чем пишешь?  

 
Да в общем-то на всем Хотя, в последнее время, предпочитаю Visual C++.

Всего записей: 138 | Зарегистр. 27-08-2002 | Отправлено: 19:21 11-11-2003
Max_Guest



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ironwit
 
Попробовал?

Всего записей: 969 | Зарегистр. 15-06-2003 | Отправлено: 23:42 11-11-2003 | Исправлено: Max_Guest, 23:44 11-11-2003
ironwit

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Max_Guest

Цитата:
Попробовал?  

 
скачать не смог... Мне бы его на профильное...
 
NSentinel

Цитата:
Да в общем-то на всем  Хотя, в последнее время, предпочитаю Visual C++.  

 
а я вот только на Delphi - так что если будем работать вместе то на уровне COM интерфейсов или dll

----------
Don't drink, and drive. Smoke and fly.

Всего записей: 1892 | Зарегистр. 11-10-2002 | Отправлено: 08:29 12-11-2003
Max_Guest



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ironwit
 
см. PM

Всего записей: 969 | Зарегистр. 15-06-2003 | Отправлено: 09:14 12-11-2003
ironwit

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Max_Guest

Цитата:
Попробовал?  

 
ИМХО совершенно не то. Задумывается система с индексацией, поиском, возможностью хранения на внешних носителях... Так что все еще ищем способы...
 
Нашел тут один OCR free gocr037.exe (на sf.net)  - но сырой до раздражения, хотя принципиально прочитать конечно текст можно. Может и пригодится (когда нить)

----------
Don't drink, and drive. Smoke and fly.

Всего записей: 1892 | Зарегистр. 11-10-2002 | Отправлено: 10:28 12-11-2003
NSentinel



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Внимательно перечитал еще раз ветку
 
botolph

Цитата:
 я не нашел той толерантной к ошибкам программы  
поимка в текстовых файлах

 
А dtSearch ты не пробовал? У него есть помимо всех прочих приятных вещей, Fuzzy Search как раз для такого случая...
 
ironwit
Пора, наверное, переходить к делу
 
Я так понимаю учавствовать будут: ironwit, botolph, ну и я Кто еще?
 
Стукнитесь ко мне плз в аську завтра...
 
Давайте начнем с четкого определения первостепенных задач, а форумчане, я надеюсь, нам советом помогут - какой инструмент для реализации использовать лучше.
 
 

Всего записей: 138 | Зарегистр. 27-08-2002 | Отправлено: 01:55 13-11-2003
botolph

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
NSentinel

Цитата:
А dtSearch ты не пробовал? У него есть помимо всех прочих приятных вещей, Fuzzy Search как раз для такого случая...  

Спасибо - заглянул на этот топик - выглядит многообещающе... Вот только насколько эта штуковина (мегабайт, мегагерц и т.п.) тянет?

Цитата:
Пора, наверное, переходить к делу  
Я так понимаю учавствовать будут: ironwit, botolph, ну и я  Кто еще?  

Я не программист - просто пописываю *.bat (под ДОС/Винд). Но работают!
Поскольку для меня каталогизация - насущная проблема - что смогу - сделаю...
ironwit

Цитата:
со всеми пунктами согласен. А вот этот поподробней, какие требования к поиску... Или найдем что нить, или напишем...  Все алгоритмы уже давно разработаны, только описать их надо и применить  

 
Мечты такие:
1) Задаешь этой программе несколько слов (имя автора или слова в названии книги/статьи или ключевые - ну те, что упоминаются во введении например)
2) Задаешь параметры поиска:
   а) сколько ошибок в слове допустимо (1-2-3)
   б) насколько близко друг к другу должны быть заданные слова
       (порядок слов мы можем не знать - а вот разбросанные по странице такие слова не всегда то, что надо)
 
  3) Программа ищет в ТЕКСТОВЫХ ФАЙЛАХ, причем  
      3-1) все русские кодировки знает и западноевропейские (всякие accent aigu - umlaut -... в немецком-французском-др) - они часто передаются кодами из верхней части ASCII-table.
      3-2) понятие ошибки довольно крутое - из опыта смотрения в распознанные тексты -
            не только буква заменяется на другую - но и может быть из одной две (типа m -> rn Ш -> ПП) или из двух одна (наоборот) или даже символ не из таблицы или даже слово разрывает на два - ну это просто - просто вообще игнорируем пробелы. Особенно часто в фамилиях портачит по понятным причинам.
     3-3) результаты поиска по многим файлам выдаются в удобном виде:
          список файлов с кратким показом места, где надены слова (типа Google-Altavista)
          При нажатии на найденный файл он показывается в отдельном окне (поскольку все в моих мечтах ограничено парой вырезанных страниц в ТИФФ - не такая уж проблема) ну естественно первыми в списке - наиболее близкие к заданным критериям - Теперь это типично во всяких гуглах.
 
Эти мечты так - для начала Ну 99% процентов потребностей покрывают.
Даже пуская найдет и даст список только - уже 98% исполнения желаний!
Даже пусть одно слово с ошибками (в описанном смысле) ищет - потом по результатам повторный поиск - уже 95% -программа моей мечты.
 
Поясню, что программы, ищущие ВНУТРИ pdf/ps/doc... не подходят - они не поймут СКАНИРОВАННЫЙ текст - а таких большинство в моей коллекции - если конечно внутри нет крутой программы распознавания - ну это было бы слишком...
 
Алгоритмы конечно давно есть - в любой программе распознавания сканир. текста и последующего исправления по словарю... Но нигде не видел описаний... Тем более отдельных программ!

Всего записей: 466 | Зарегистр. 24-09-2003 | Отправлено: 07:13 13-11-2003
NSentinel



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
botolph

Цитата:
Вот только насколько эта штуковина (мегабайт, мегагерц и т.п.) тянет?

А что у тебя за машина? На PIII-866 крутится достаточно живо, меня скорость вполне устраивает. Создает достаточно большой индекс, так что будь готов Для 13.2 Гб у меня создался индекс порядка 3,5 Гб. Если разрешить компрессию, уменьшается до 2,8
 

Цитата:
Поскольку для меня каталогизация - насущная проблема - что смогу - сделаю...

Отлично  
 
 

Цитата:
Поясню, что программы, ищущие ВНУТРИ pdf/ps/doc... не подходят - они не поймут СКАНИРОВАННЫЙ текст - а таких большинство в моей коллекции - если конечно внутри нет крутой программы распознавания - ну это было бы слишком...  

Ты уже начал копать dtSearch, продолжай в том же духе.. Ты будешь приятно удивлен Она поймет сканированный текст и даже будет совсем неплохо искать в нем
 
Честно говоря у меня есть рабочее предложение: дабы не изобретать велисипед, и учитывая, что dtSearch позволяет использовать свой движок во внешних приложениях, можно использовать её поисковые возможности...
 
Хотя можно конечно и свой алгоритм написать, но IMHO не на первых порах...

Всего записей: 138 | Зарегистр. 27-08-2002 | Отправлено: 07:59 13-11-2003
ironwit

Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Все прочитал очень внимательно, пощел качать dtsearch. Посмотрим, но вообще то хотелось бы конечный продукт иметь без кракнутых компонентов. 2программисты - понятно зачем?

----------
Don't drink, and drive. Smoke and fly.

Всего записей: 1892 | Зарегистр. 11-10-2002 | Отправлено: 08:40 13-11-2003
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7

Компьютерный форум Ru.Board » Компьютеры » Программы » каталогизатор документов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru