jourmager
Advanced Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Цитата: Этот "автомат" настолько хреново работает, что нужно пересматривать все страницы и примерно 2/3 из них корректировать вручную | Доктор, где же вы такие страницы берёте? Вообще-то, если количество ошибок превышает 20% (грубо говоря), то надо менять программу. А теперь по делу. Прогнал через СканТейлоры несколько книжек. В результате получил боль головного мозга в области затылочной коры. Потому что результаты работы автоматики надо проверять. Потому что в 2024 году СканТейлор - программа специально разработанная для потоковой обработки изображений, эти самые изображения листает с тробберами. Т.е. выводится страница, жму PgDn, вижу троббер и скачок яркости экрана, выводится следующая страница. Кроме того, при обработке сырого криво-косого скана, получившееся изображение дёргается вверх-вниз-влево-вправо, потому что центрируется на странице не относительно области контента, а относительно задней ноги программиста. Я прекрасно понимаю книгоделателей, которые забивают на проверку промежуточных результатов - здоровье дороже. И да, я знаю про лайф-хак с сортировкой по размеру области контента. Про промахи алгоритма выделения полезной области контента. Замечу сразу, что у меня таких промахов не выше 10-15%. По моим наблюдениям алгоритм промахивается в таких случаях: 1) Когда контент в виде заголовка или колонтитула далеко отстоит от основного текста - они не захватываются 2) Когда есть недалеко от основного текста какая-то крупная маращка в виде точки или чёрточки или пятна - она захватывается 3) Если развороты сфотографированы, а не отсканированы, и тогда захватываются вертикальные срезы страниц 4) Спорный случай, когда на страницах есть типографские метки типа 3* или Ф.И.О. Автора** - они как бы лишние в электронной книге, и они захватываются 5) Необъяснимая фигня, когда на одной странице всё захватывается отлично, рядом на такой же самой странице захватывается больше чем надо. Вообще-то сравнительная редкость. 6) Тяжёлый случай, когда иллюстрации расположены до края страницы 7) Тяжёлый случай, когда на странице хаотично вперемежку иллюстрации и текст Все эти проблемы давно известны и решаемы, но программистов они не интересуют. Поэтому у любителей СканТейлора голова будет болеть по-прежнему. |