jourmager
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору psikov Цитата:| Интересно почему он ВАМ до сих пор интересен. ЕМНИП, вы же в этой теме много раз писали, что Тейлор делает свою работу косо, криво, медленно, неудобно и т.п. Ну так почему же ВЫ его не забросили и на Кромсатор до сих пор не перешли? Ну или на какую-либо другую альтернативную программу - тот же FineReader, например, может делать ту же работу, что и Тейлор. Стало быть СканТейлор не такой уж и убогий, как можно подумать читая то, что вы здесь про него пишете? | -2) Если коротко - Кромсатор избыточно сложен, ФайнРидер недостаточно функционален. Но для получения результата иногда приходится использовать все подходящие программы. При отсутствии времени дальше можно не читать. -1) Я не знаю. каков ваш стаж на ру-борде (дата регистрации и количество постов ни о чём не говорит) и насколько вы информированы по теме, поэтому постараюсь объяснить обстоятельно, уж извините за многословие. 0) Всё ниже написанное является моим ИМХО, которое я могу при необходимости подкрепить фактами. Но замечания об ошибках, уточнения, дополнения приветствуются. 1) Почему мне интересен ScanTailor для обработки книжных сканов. Специализированных программ обработки книжных сканов я знаю 4: Book Restorer, ScanKromsator, ScanTailor, LIMB Processing. Функции обработки книжных сканов имеют некоторые OCR-программы и PDF-редакторы: FineReader, PDF-XChange Editor, Orpalis PaperScan Pro. Есть ещё мощные OCR-программы, такие, как Kofax Omni Page, Readiris PDF, Aquaforest Autobahn DX, но я не помню, что там есть по обработке сканов, а проверить сейчас нет возможности. Но в своё время я пробовал все (и не только вышеперечисленные), кроме LIMB Processing и Aquaforest Autobahn DX. Совершенно отдельно стоят программно-аппаратные комплексы Archive.org (программа LuraDocument) и Google Books. 2) Моё мнение таково, что серьёзные производители серьёзных программ физически не могут сделать качественные алгоритмы обработки сканов (и фотографий) книг по той причине, что при разработке и тестировании программных алгоритмов надо использовать эти самые сканы страниц книг. Которые сканы практически все находятся под охраной авторского права. И их нельзя использовать для разработки соответствующих программ. Т.е. легальный разработчик легальной программы обработки сканов книг вынужден работать вслепую. В таком случае даже хорошие программисты поневоле превращаются в некомпетентных идиотов. 3) Tulon, автор ScanTailor, получил в своё время кучу седых волос и кучу мертвых нервных клеток, из-за того, что его доставал некий персонаж из US, которого Tulon подозревал в работе на органы охраны авторских прав, и Tulon мог огрести по полной в случае соответствующих обвинений, типа использования сканов книг, полученных нелегальным путём. Всё это есть в этой теме. 4) Единственная известная мне профессиональная программа обработки книжных сканов, сделанная профессиональными программистами, которая доступна широкой общественности ЕВПОЧЯ - это Book Restorer, который прекратил своё существование в 2008 году. В том же году Google Books заключил (начал заключать) мировое соглашение с владельцами авторских прав на книги по иску в нарушении авторских прав. Совпадение? ИМХО, по концепции интерфейса и по скорости работы определённых функций Book Restorer не смогли превзойти ни ScanTailor, ни ScanKromsator, хотя развивались ещё 20 лет после оного. К сожалению, Book Restorer имеет существенные огрехи в реализации интерфейса и работе некоторых функций, что делает невозможным его использование в качестве основной программы для обработки сканов, но им приходится пользоваться в некоторых трудных случаях, типа исправления геометрических искажений. Программа LIMB Processing, которая является далёким наследником Book Restorer-а, вообще-то предназначена для продажи в составе программно-аппаратных комплексов компании i2s, т.е. в комплекте с их планетарными сканерами. Хотя на сайте пишут по 30-дневный триал и на ру-борде даже есть тема в соответствующем разделе. Но. 5) Итого остаются фриварные ScanTailor и ScanKromsator. ScanKromsator начал разрабатываться раньше ScanTailor-а. К сожалению, автор ScanKromsator-а не силён в разработке интерфейса пользователя (по его же собственным словам), а также ограничен программной платформой разработки. Поэтому ScanKromsator имеет неинтуитивный, нелогичный, неудобный интерфейс. Положение осложняется тем, что автор ScanKromsator-а наотрез отказался делать инструкцию к программе. Так называемая "Хрестоматия", своеродная библия приверженцев ScanKromsator-а, состоит из 4 (совпадение ?) не связанных между собой разделов, которые повторяют одно и то же на разный лад. Причём в Хрестоматии, которая была выпущена в 2018 году, описываются устаревшие на сегодняшний день версии программы (основа - 6-я версия 2016 года, хотя есть тексты и по версии 2008 года), т.е. одни функции работают не так, другие не рекомендуются, третьи вообще уже удалены, а описания новых функций естественно нет. Опять же - это хрестоматия, т.е. набор текстов от разных авторов с их собственным подходом по интересным им самим темам. Системность отсутствует как класс. Видеоуроки существуют, но имеют те же недостатки - устарелость, отсутствие системности, разный подход, помноженные на длительность просмотра. Элементарные операции могут быть растянуты как резинка-венгерка. Но есть один плюс - страдающим бессонницей классно смотреть на ночь. В какой-то момент начинает неудержимо клонить в сон. В некоторой степени помогают файлы Whats New в инсталяшках ScanKromsator-a, но это про информирование, а не про обучение. Чтение специализированной темы на руборде помогает мало, т.к. там в основном обсуждаются специфические проблемы, обычно находящиеся вне сиюминутных интересов рядовых пользователей. Есть возможность получить ответ на свой вопрос или совет от автора ScanKromsator-a (или от искушенных пользователей), но не будешь же спрашивать его о казалось бы элементарных вещах, типа как открыть файл для работы в ScanKromsator-e. Ой, а такое уже было. И не у меня одного. Всё это приводит к тому, что на освоение программы требуется много времени. С затратами времени на освоение ScanKromsator-а можно смирится, но интерфейс программы настолько своеобразен, что порядок нужных действий для обработки материала забывается моментально, если не пользоваться ScanKromsator-ом каждый день. Т.е. при периодическом использовании ScanKromsator-a каждый раз приходится проходить всё обучение и освоение заново. Это задалбывает. Также автор ScanKromsator-a принципиально против автоматизации определённых рутинных действий, что в определённых случаях приводит к увеличению времени обработки материала и к повышенной утомляемости обработчика от тупого однообразия бессмысленных действий. Дополнительные функции есть и их много. Но сложность их освоения и некоторые сомнения в их принципиальной нужности могут нивелировать их существование. Некоторым недостатком программы является её основная направленность на формат djvu. Очень большой плюс ScanKromsator-a - это то, что программа постоянно развивается, улучшается, а сам автор является очень активным пользователем своей программы, т.е. о процессе обработки сканов знает "из первых рук". Что, ИМХО, приводит к обратном результату - на каждый чих сразу же добавляется своя кнопка, что приводит к дальнейшему усложнению и без того переусложненного интерфейса. 6) ScanTailor изначально делался как программа массовой потоковой автоматической обработки сканов для неискушенных пользователей. Это привело к тому, что ScanTailor имеет интерфейс, который является простым, интуитивным, логичным, и в основном удобным. Таким образом отсутствует необходимость в многословных инструкциях, видеоуроках, советах автора, каком-либо обучении. В форках программы, типа ScanTailor Advanced или ScanTailor Universal есть дополнительные функции, которые не совсем очевидны, но это не настолько большой грех. Направленность ScanTailor-a на автоматизацию процесса убыстряет его, упрощает, и делает менее утомительным. К сожалению, Tulon, автор ScanTailor-a, имея на начало разработки программы опыт обработки сканов аж 2 книжки, взял мастера Nero Burning Rom как основу идеи интерфейса и принципа работы ScanTailor-a, что привело к жесткой заданности последовательности действий и к жесткой внутренней архитектуре программы. Эту ошибку расхлёбывали и расхлёбывают по сей день все пользователи ScanTailor-a, все авторы его форков, ну и сам Tulon. Ещё одна ошибка - это использование лицензии GPL v.3, которая резко ограничивает возможности программиста по использованию программных библиотек, по возможности зарабатывать деньги и по куче других нюансов. Существующие проблемы в ScanTailor-e частично связаны с позицией автора - Tulon-a, который иногда рогом упирался в своё собственное видение работы программы и напрочь отказывался прислушаться к мнению пользователей, намного более искушенных в обработке сканов. Надо понимать, что концепция автоматизации процесса обработки и максимального упрощения интерфейса имеет оборотную сторону. Т.е. функциональность программы всегда приносилась в жертву, чтобы программа оставалась максимально удобной и автоматизированной. Тем не менее, количество и качество его функционала вполне достаточны для обработки очень большого количества материала. К сожалению, разработка ScanTailor-a профессиональными высококлассными программистами на C++, коими были Tulon (ST и ST Experimental), 4lex4 (ST Advanced), trufanov-nok (ST Universal), прекратилась как минимум 5 лет назад и надежды на её возобновление нет. 7) FineReader, который является наиболее продвинутым OCR- и PDF-редактором в области обработки сканов, всё-таки не дотягивает до функциональности ScanTailor-a, и уж тем долее до ScanKromsator-a, по причинам, озвученным в п. 2. Практически все его функции в разделе Image Editor (который по концепции до боли напоминает Book Restorer), аналогичные функциям ScanTailor, реализованы на "полшишечки", т.е. теоретически они есть, а практического удовольствия - никакого. Ну серьёзно. Вот как в Файнридере разделить разворот на страницы, если разворот сфоткан под углом, и граница раздела страниц наклонена? Я пробовал. Ни фига. Как повернуть страницу на полградуса, который вижу я, а не на 20 градусов, которые видит алгоритм? Как кропнуть автоматом по содержимому 300 страниц книги? Где сделать поля? Как бинаризировать страницы с подбором алгоритма бинаризации и его параметров? Всё это без проблем делается в ScanTailor. Т.е. в некоторых случаях функции FineReader Image Editor работают, и работают хорошо, типа того же Straighten Text Lines, а в некоторых хоть плачь и колись кактусом. 8) Бонус. Приходилось сравнивать результаты бинаризации Orpalis PaperScan Pro, которая использует полностью автоматическую реализацию "Bradley adaptive thresholding", и ScanTailor. Увы и ах. Коммерческое решение от команды профессионалов проигрывало бесплатному решению от одиночки-самоучки (в области обработки изображений). Надо будет их наследника Aquaforest Autobahn DX попробовать, может довели до ума. |