Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » Программы и тактика оцифровки документов и организации файло

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки

Открыть новую тему     Написать ответ в эту тему

Boris Smirnov

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Так как мы все больше переходим из бумажного мира в цифровой, хотелось бы понять как лучшим образом организовать свою жизнь в этом мире. Копится много бумажных документов, квитанций, вырезок, старых журналов, книг и т.д.
 
Они просто занимают место и собирают пыль. В то же время стоимость носителей информации (хард-дисков) стремительно падает. Надо бы все оцифровать, заархивировать и правильно организовать поиск нужной информации в полученных файлах.
 
Пишу просто идею проблемы и примерно, как я пытаюсь это решить. А также с помощью каких программ это делается. Заодно постараюсь здесь выложить микро-мануальчики по каждой из используемых программ именно в указанном разрезе. Было бы хорошо послушать мнение сообщества по тому, кто и как решает данную проблему - может будут полезные идеи, а также найдены лучшие программы. Не стоит здесь описывать сами программы (для этого есть специализированные темы), но надо пояснить, почему именно предлагаемая программа лучше той, что используется в цепочке архивации.
 
Здесь очень крупными штрихами излагается идея, которую подробнее распишу позже в мануале:
 
Итак, основных этапы (и далее подберем программы для их реализации):
1. Избавляемся от бумажных книг и журналов.
2. Избавляемся от вырезок, буклетов и другой разрозненной информации.
3. Избавляемся от старых документов (квитанций, инструкций к технике и прочего)
4. Организуем файлы по дискам, папкам, по типам и т.д.
5. Организуем поиск информации в этих файлах.
6. Делаем резервные копии.
 
С помощью каких программ реализуем:
1. ИЗБАВЛЯЕМСЯ ОТ БУМАЖНЫХ КНИГ И ЖУРНАЛОВ.
На  файлообменниках ищем оцифрованные уже копии книг и журналов (для торрентов uTorrent, для Donkey - eMule MorphXT, для ВС++ - Strong DC++). Лучше скачивать целиком библиотеки или подшивки журналов с торрентов или DC++ (так быстрее).
 
Удаляем дубликаты цифровых версий с помощью CloneSpy и WhereIsIt (ищет дубликаты в архивах).
 
Архивы на целостность проверем с помощью Total Commander. Завирусованные удаляем с помощью Касперского и ь.п.
 
Выкидываем все бумажные книги, которые имеют точную цифровую копию (полную, с хорошим качеством скана) и к которым редко обращаемся. Самые ценные рабочие книги все равно оставляю - их цифра не заменит никогда.
 
Если скачал аудиокниги, то бумажную копию временно оставляю - иногда послушаешь, иногда почитаешь.
 
2. ИЗБАВЛЯЕМСЯ ОТ ВЫРЕЗОК, БУКЛЕТОВ И ДРУГОЙ РАЗРОЗНЕННОЙ ИНФОРМАЦИИ
 
Здесь я остановился на Nuance PaperPort + OmniPage Для распознавания текста. Его конкурент Abbyy FinerReader - использую редко для особых случаев. PaperePort в плане организации отсканированных документов и рабоыт с ними организован, мне кажется проще, интуитивнее и имеет больше возможностей.
 
Кучкую заранее все вырезци, буклеты и т.д. по темама и цифруем все с помощью PaperPort в PDF-ки.
 
Потом в мануале напишу, почему и как использую возможности этой программы.
PDF делаю с текстовым слоем для посика в них.
 
Я также выкидываю фото, которые однозначно мне в натуре не понадобятся тоже трижды подумав). Сканирем их любой прогой в высоком качестве и адью.  
 
Потом можно будет сделать цифровой альбом для просомтра на телевизоре и выберем для этого лучшую программу. Я цифровые адьбомы не делал, а надо бы. Так что, кто сравнивал - посоветуйте лучшую прогу и почему объясните.
 
 
3. ИЗБАВЛЯЕМСЯ ОТ СТАРЫХ ДОКУМЕНТОВ (КВИТАНЦИЙ, ИНСТРУКЦИЙ К ТЕХНИКЕ И ПРОЧЕГО)
 
Старые документы лучше сканировать в отдельные файлы (вдруг понадобится все же) и можно выкинуть, трижды подумав - все же документ!  Неожиданно выяснилось, что пару огромных коробок занимают упаковки от мышек, клавиатур и прочей компьютерной и оргтехной дряни. Цифруем (сканируем или фоткаем) сами упаковки и выкидываем.  
 
Я в именах файлов штампую на всякий случай дату покупки товара.
 
Большинство коробок точно так можно выкинуть, т.к. хранить их бессмысленно - товар в них не вернуть, переезжать не собираетесь, да и то можно решить вопрос без коробок.
 
Драйверы из упаковок копируем в в одну структрированную папку (например "Мои покупки") и выкидываем диски - все равно можно скачать с сайта производителя.  
 
Кстати, о том, что драйверы обновились для Вашего железа можно отследить с помощью  ряда программ: Sumo, WebSite Watcher Driver Genius и др. - Рассмотрим позже.
 
4. ОРГАНИЗУЕМ ФАЙЛЫ ПО ДИСКАМ, ПАПКАМ, ПО ТИПАМ И Т.Д.
 
Тут безусловно, лидеры файл менеджеры - Total Commander, FAR - они дополняют друг друга рядом функций, которых нет друг у друга. Например, FAR повзоляет сразу вставить описание descript.ion для кучи файлов, TC вроде не умеет, а может я и не нашел такой функции.  
 
Есть таке же программа для автоматического раскидывания файла по типам (музыку, графику и прочее), но тогда получается полнуй бардак на диске.
 
Я описываю файлы (делаю файл descript.ion) с помощью FAR или TC.
 
Очень хорошо и тщательно надо подумать именами файлов, папок и структурой - ЭТО ЦЕЛАЯ ТЕМА! Распишу свой опыт позже.
 
5. ОРГАНИЗУЕМ ПОИСК ИНФОРМАЦИИ В ЭТИХ ФАЙЛАХ. Раскидали файлы по папкам - теперь надо найти нужную информацию.  
 
Сначала я проверяю наличие в важных для  меня PDF И DJVU текстового слоя. Если его нет, то создаю их с помощью FineReader или PaperPort, а также DjVu Pro.
 
Потом всю инфу я загоняю в каталогизатор WhereIsIt - на мой взгляд лучший каталогизатор. Написал по тактике работы с ним мануальчик на 6 стра. - опубликую здесь.
 
И потом еще прогоняю все файлы через Archivarius 3000 - лучшая система индексации текста из тех, что я знаю. Может кто то знает лучше?
 
Посоветуйте, кто работает с музыкой, фотограиями  и видео - какие проги для каталогизации лучше всего и почему. WhereIsIt, в принципе, дает значительную часть того, что нужно для поиска (thumbnails для графики и видео, теги из музыки выдирает, скачка данных из интернет), но нет некоторых вещей типа плееров и чего наверно еще полезного, чего я с ходжу не скажу. Ибо не меломан.
 
6. РЕЗЕРВНОЕ КОПИРОВАНИЕ
Я копирую целиком хард на хард - просо жалко время на возню с ДВД и флэшками. До копирования проверяю диски на наличие ошибок стандартными средствами Windows - chkdsk.  
 
Копирование делаю Acronis True Image.
 
Здесь только скелет схемы. А подробности буду писать по ходу ьесы в виде мануальчиков для скачки по каждому этапу.
 
Интересует мнение сообщества - кто какие программы использует для решения данной задачи - организационные моменты также полезны.

Всего записей: 420 | Зарегистр. 04-11-2001 | Отправлено: 11:25 27-01-2010
VITALY200

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Мне как новичку статья ничего не дала.
Самое ценное чем оцифровывать, тут пару строк.
Остальное дело каждого, что и где ему хранить. ИМХО.

Всего записей: 55 | Зарегистр. 02-08-2007 | Отправлено: 16:33 01-12-2010
SerGG



Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Очень интересно, много полезного получил!
Практически  все перечисленные проги есть и у меня, но вот такой системный подход не использовал и вижу (из Вашей статьи) что зря, т.к. проблемы - те-же.  

Цитата:
Здесь только скелет схемы. А подробности буду писать по ходу ьесы в виде мануальчиков для скачки по каждому этапу.  

Хотелось бы очень более развернуто.
 

Цитата:
Потом всю инфу я загоняю в каталогизатор WhereIsIt - на мой взгляд лучший каталогизатор. Написал по тактике работы с ним мануальчик на 6 стра. - опубликую здесь.

Вт.ч., и это тоже
 

Цитата:
 
Здесь я остановился на Nuance PaperPort + OmniPage Для распознавания текста. Его конкурент Abbyy FinerReader - использую редко для особых случаев.

 
Почему? На мой взгляд FR лучше распознает.
Пожалуйста, продолжите тему, т.к. и другим пользователям этих прог будет интересен Ваш опыт комплексном подходе их использования.

Всего записей: 171 | Зарегистр. 28-09-2003 | Отправлено: 15:51 08-11-2012
Boris Smirnov

Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я думаю надо  поэтапно.
 
Давайте начнем с пункта 1.
 
1. Избавляемся от бумажных книг и журналов.  
 

Цитата:
Выкидываем все бумажные книги, которые имеют точную цифровую копию (полную, с хорошим качеством скана) и к которым редко обращаемся. Самые ценные рабочие книги все равно оставляю - их цифра не заменит никогда.
 
Если скачал аудиокниги, то бумажную копию временно оставляю - иногда послушаешь, иногда почитаешь.  

 
У меня вот очень большая библиотека расставаться жаль. С другой стороны, потаскал при переездах - надоело.
 
Вначале начал тупо выкидывать все, что имеет цифровую копию. Но ошибся. Понял, что сидение с книгой на порядок больше удовольствия, чем с каким-нибудь тупым планшетом - это мое личное мнение.
 
Потому решил более подробно остановиться, что же точно можно выкинуть, а что не стоит.
 
1. Выкинуть можно только то, что имеет хорошую цифровую копию. А именно: четкий скан оригинала со всеми иллюстрациями.  Обязательно надо проверить:
 а) все ли страницы в электронных копиях есть. Нередко обнаруживал, что нет даже целых глав.
 б) если книжка - перевод с зарубежного издания - соответствует ли перевод Вашей бумажной копии. Не раз были несколько версий перевод - некоторые просто ужасные и самое главное с грубыми ошибками.
 в) насколько удобно форматирование электронной версии. Иногда пихают все картинки в конец книги - это жесть скакать туда сюда по электронной книге или открывать несколько копий!
 
2. Сохраняем книги каждодневного пользования, скажем, следователь  - какой-нибудь уголовный кодекс, которым надо каждодневно тыкать в морду подследственным и стращать их.
 
3. Выкидываем словари - если есть электронные - они в большинстве случаев удобнее в поиске. Но я выкидываю только те, что входят в ABBEY Lingvo и т.п.. Если не входят - то сохраняем.
 
4. Выкинул всю лабуду типа народной медицины и прочего - ее нет!
 
5. надо выкинуть то, на что при всем желании времени жизни уже не хватит - учебники по вторым и третьим языкам. Но это оценивает каждый сам.
 
Теперь об удалении клонов цифровых копий.
 
Сначала тотальную первоначальную чистку делаю с помощью CloneSpy - он удаляет точные копии (побайтовое сравнение) файлов.  Удаляем с ее помощью как архивы (zip, rar и т.п.), так незапакованные PDF, DJVUE, DOC И прочее.
 
Используем программы для поиска файликов с небольшими отличиями в имени (fuzzy search) для сгруживания в одно место вероятных копий одной и той же книги. Например, "Война и Мир" и "Война и мир - Том 1".  Такие  программы есть. КАКИЕ ПРОГРАММЫ ВЫ ИСПОЛЬЗУЕТЕ ДЛЯ ЭТОГО - ВАШИ РЕКОМЕНДАЦИИ????
 
Далее ищем с помощью специальных программы архивы, закрытые на пароль. Если пароль есть - распаковываем, если нет - удаляем. КАКИЕ ПРОГРАММЫ ВЫ ИСПОЛЬЗУЕТЕ ДЛЯ ЭТОГО - ВАШИ РЕКОМЕНДАЦИИ????
 
Потом распаковываю все архивы с книгами с помощью Total Commander. Total Commander позволяет распаковать каждый архив во всех папках и подпапках в отдельную папку для каждого архива с именем этого  архива. Суперудобно!  
 
Убираю архивы куда-нибудь на резервный диск на всякий случай. Теперь ищу клоны среди распакованных файлов + незапакованные книжки.  
 
Можно использовать и WhereIsIt без распаковки архивов - он ищет одинаковые файлы в архивах без их предварительной распаковки (на самом деле, конечно для подсчета CRC сначала их распаковывает).  
 
Мне кажется, c Total Commander это удобнее
 
После предварительной легкой чистки можно пойти дальше и чистить уже более тщательно. ЗОЛОТОЕ ПРАВИЛО тайм-менеджмента - не тратьте время на то, что возможно никогда и не произойдет. Поясняю - вышестоящими операциями вы удалили просто мусор с диска. Но дальше заниматься очисткой надо только, если есть реальная необходимость. Например, есть куча раговорников по французскому языке. Зачем их тщательно сравнивать, вычищать и т.д., если пока неясно, дадут Вам визу во Францию или нет? Вот елси дадут тогда потратьте на это немного времени. Поэтому следующий шаг - по ходу событий.  
 
А именно - многие файлы- копии одного и отго же текста иногда отличаются одним байтом. Или в PDF в начало втыкают рекламную страницу. Значит надо сравнить текстовое содержимое одной и той же книги, но отличающееся по размеру или при побайтовом сравнении.
 
Поэтому встают вопросы, которые надо будет рассмотреть в следующем посте:
 
1. Как найти файлы с текстовым слоем DJVUE И PDF? Т.е. это уже распознанные OCR файлы - из них можно копировать цитаты, их могут читать всякие text-to-speech программы голосом и их можно сравнивать между собой на предмет различий в тексте.
 
2. Как добавить текстовый слой в пакетном режиме к остальным DJVUE И PDF на соответствующем языке?
 
3. Как склеить разбитые на на несколько PDF И DJV книги?
 
4. Какими программами сравнить содержимое текстов в указанных файлах плюс файлы в форматен FB2, DOC, RTF между собой.
 
 
Делитесь, что что знает по указанным вопросам.
 
 

Всего записей: 420 | Зарегистр. 04-11-2001 | Отправлено: 22:33 26-12-2012
likbez



Advanced Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Boris Smirnov

Цитата:
4. Какими программами сравнить содержимое текстов в указанных файлах плюс файлы в форматен FB2, DOC, RTF между собой.  

 
ExamDiff

----------
Knowledge is power!
=============
Чёрный список г.Киева

Всего записей: 977 | Зарегистр. 10-05-2002 | Отправлено: 20:24 09-02-2013
Mimihodom



Newbie
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Нескромный вопрос - а продолжение будет? А то вот тоже назрела необходимость навести порядок, начал "курить форумы"...

Всего записей: 2 | Зарегистр. 25-04-2006 | Отправлено: 21:00 01-12-2013
Открыть новую тему     Написать ответ в эту тему

Компьютерный форум Ru.Board » Компьютеры » Программы » Закладки » Программы и тактика оцифровки документов и организации файло


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.Board
© Ru.Board 2000-2020

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru