Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)

Модерирует : gyra, Maz

Maz (10-01-2024 10:45): Scan Tailor (часть 3)  Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

   

Widok



Moderator-Следопыт
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Предыдущие части: Часть 1
Scan Tailor


Задача программы - пост-обработка сырых сканов книг для последующей сборки в PDF/DJVU,CBR/CBZ и т.д.
Программа обеспечивает большое удобство для использования, большую интерактивность и не меньшую автоматизацию процесса (по сравнению со СканКромсатором).
Кросс-платформенный (Windows,Mac OS, Linux) проект с открытыми исходниками.


Англоязычный топик по ScanTailor
 
Ветки:
Scan Tailor (ncraun) >>>  последняя версия
Scan Tailor Experimental (Tulon) >>>  последняя версия (обсуждение на DIY Book Scanner)
Scan Tailor Plus (Vadim "DikBSD" Kuznetsov) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Еnhanced (Petr "pejuko" Kovar) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Featured (monday2000) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Universal (trufanov-nok) >>>  последняя версия (обсуждение на publ.lib.ru)
Scan Tailor Advanced (4lex4) >>>  последняя версия (отличия от авторской версии)
Scan Tailor Advanced (актуальный форк) >>>  история версий
 
Документация:
Документация (Wiki) | Зоны картинок в ScanTailor | ScanTailor. Быстрое начало | Видеоуроки и скринкасты новых функций СТ от Tulona
Статья: Scan Tailor. Программа для обработки отсканированных книг
Видеоурок: Создание DjVu с помощью Scan Tailor (зеркало)
Использование Scan Tailor совместно с Djvu Imager (сборка djvu методом разделенных сканов)
Как собрать Scan Tailor из исходных кодов под Windows
Почему нельзя сделать сплошную нумерацию вывода


Автор проекта - Tulon. Почему его здесь не видно? .
DikBSD автор ветки ScanTailor Plus история повторяется.
Юзеры! Будьте скромнее!


Прочие дистрибутивы, форки, дополнения

Всего записей: 24190 | Зарегистр. 07-04-2002 | Отправлено: 12:17 17-02-2010 | Исправлено: Maz, 10:43 10-01-2024
Archivist

Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
кста, а зачем jpg из pdf или djvu делать, какой в этом смысл, да еще в отдельных кадрах в виде архива?  

Archive.org любые загруженные документы преобразует в набор картинок, которые (после еще одного дополнительного преобразования) отображает в браузере. В этом его главное преимущество и недостаток. Самое смешное получается, когда загружают "векторный" PDF весом менее мегабайта, а на выходе получается 50 мегабайт картинок.

Всего записей: 327 | Зарегистр. 10-08-2018 | Отправлено: 10:44 26-10-2019
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235

Цитата:
Проверка показала (pdfimages.exe -all deutscherwortsc00unkngoog.pdf  prefix ), что действительно в pdf лучше качество чем архиве 43 mb.

Из чего сделан такой вывод?

Цитата:
Еще в архиве картинки с белыми полями, а извлеченные из pdf - без полей.  

Это не так.

Всего записей: 7334 | Зарегистр. 08-09-2001 | Отправлено: 12:57 26-10-2019
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Archivist

Цитата:
Самое смешное получается, когда загружают "векторный" PDF весом менее мегабайта, а на выходе получается 50 мегабайт картинок.

Все так и есть.
los

Цитата:
Из чего сделан такой вывод?  

 
Например, страница 264 в книге. Размер файла jp2 из архива - 96.24 кб, таже страница извлеченная их pdf - 123.65 кб, тоже в jp2. Если сравнить в просмоторщике эти два файла, то в архивной картинке больше артефактов и мыла. В картинке из архива присутствуют дополнительные белые поля,  в извлеченной из pdf - только поля бумажной книги (цвета бумаги).  
 

Всего записей: 884 | Зарегистр. 14-12-2005 | Отправлено: 14:52 26-10-2019
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235,

Цитата:
Например, страница 264 в книге. Размер файла jp2 из архива - 96.24 кб, таже страница извлеченная их pdf - 123.65 кб, тоже в jp2.  

Это зависит от программы для извлечения и её настроек.

Цитата:
В картинке из архива присутствуют дополнительные белые поля,  в извлеченной из pdf - только поля бумажной книги (цвета бумаги).  

при одинаковом размере страниц 863x1332?
 

Всего записей: 7334 | Зарегистр. 08-09-2001 | Отправлено: 15:33 26-10-2019
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Это зависит от программы для извлечения и её настроек.  

Нет, не зависит,  нормальные программы типа pdfimages именно извлекают поток как есть, без конверсии.
Размер извлеченной картинки - 788*1257.
 
 
 

Всего записей: 884 | Зарегистр. 14-12-2005 | Отправлено: 16:07 26-10-2019
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235

Цитата:
Нет, не зависит,  нормальные программы типа pdfimages именно извлекают поток как есть, без конверсии.  

Спорное утверждение.
 
Какого размера и разрешения извлекается этот файл? Он лучше или хуже чем *.jp2 из архива?  
https://workupload.com/file/HPDHd6hM

Всего записей: 7334 | Зарегистр. 08-09-2001 | Отправлено: 16:50 26-10-2019
U235

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Какого размера и разрешения извлекается этот файл?

Извлекается jpeg 863*1332 пикселя размер 99.12 кб. В архиве - jpeg2000 с такой же геометрией 52.37 кб.  У файла jpeg  из pdf больше артефактов вокруг букв, т.е. он хуже.
В книге эта страница закодирована jbig2, размером ~ 30 кб (jb2e+jb2g).
 

Всего записей: 884 | Зарегистр. 14-12-2005 | Отправлено: 19:30 26-10-2019
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Извлекается jpeg 863*1332 пикселя размер 99.12 кб. В архиве - jpeg2000 с такой же геометрией 52.37 кб.  

спасибо.

Всего записей: 7334 | Зарегистр. 08-09-2001 | Отправлено: 20:45 26-10-2019
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
U235

Цитата:
В книге эта страница закодирована jbig2, размером ~ 30 кб (jb2e+jb2g)

 
Размер меньше
 
PDF-XChange Editor 7.0.328:
https://yadi.sk/

Всего записей: 2794 | Зарегистр. 31-05-2010 | Отправлено: 21:39 26-10-2019
cuneiform

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ну, я вот смотрю со стороны, что творится с картинами:  
 
Их режут ножами, обливают кислотой и краской, а реставраторы их восстанавливают.  
 
Скажите, неужели нельзя восстановить книгу, чтобы россияне на twirpx.com могли получить ее в нормальном виде?
 
Может кто и возмется, несмотря на очевидные трудности.  
Какие еще слова надо использовать для этого?  
 
Книга выходила последний раз в начале 60-х и более не переиздавалсь, то есть около 60 лет прошло. Причем, самой книге 127 лет.
Издательство Klett не дает лицензию ни на a) переиздание, ни на b) дигитализацию. Вот справка от гугла (кликнуть):
 

 
(блин, сами отсканили, заплатили штраф за это, и теперь пишут No E-book available! )
 
 
Ясно, это нужный справочник, собсно, это ассоциативный словарь - от Идеи к самой Вещи. - Таких книг было написано во Франции 2 , в Германии 2 - . В России - для русского языка - ни одной.  
 
Кто изучает и  ю з а е т  английский, ищет и скачивает,  
 
Roget’s Thesaurus of English Words and Phrases
 
 
Тезаурус Роже (англ. Roget’s Thesaurus, оригинальное название Thesaurus of English Words and Phrases — «Тезаурус английских слов и фраз») — один из первых в истории и наиболее известных на сегодня идеографических словарей. Составлен британским лексикографом Питером Марком Роже около 1805 г. и опубликован в 1852 г.  (w i k i)
 
 
https://ru.wikipedia.org/wiki/%D0%A2%D0%B5%D0%B7%D0%B0%D1%83%D1%80%D1%83%D1%81_%D0%A0%D0%BE%D0%B6%D0%B5

Всего записей: 2062 | Зарегистр. 27-04-2006 | Отправлено: 11:40 27-10-2019 | Исправлено: cuneiform, 12:34 27-10-2019
Shurix83

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Скажите, неужели нельзя восстановить книгу, чтобы россияне на twirpx.com могли получить ее в нормальном виде?

В том-то и дело, что проект оцифровки Гуглом книжек реализован через одно место - делают там криворукие. Криво сделанные сканы, которые еще криво пережатые, это неисправимо. Единственный вариант - договориться с какой-нибудь серьёзной библиотекой и самому отсканировать и обработать.
 
Добавлено:
cuneiform
https://books.google.by/books?id=sZFBAAAAYAAJ&printsec=frontcover#v=onepage&q&f=false - оно? тут качество лучше?

Всего записей: 84 | Зарегистр. 12-04-2007 | Отправлено: 12:41 27-10-2019 | Исправлено: Shurix83, 12:48 27-10-2019
cuneiform

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shurix83
 
Чтобы посмотреть качество, набрал на этой странице слово Liebe, поиск нашел 88 результатов, на экране только 3 видно, качество имхо хорошее, но как увидеть другие 85?
 
И нельзя ведь скачать, только онлайн смотреть.  
 
https://books.google.by/books?hl=ru&id=sZFBAAAAYAAJ&focus=searchwithinvolume&q=Liebe
 
По поиску гуглбукс, они ее отсканировали 11 раз разных годов изданий более 100 лет возрастом, но не дают скачивать, правообладатели, значит.
 
Все дело в правообладателях.
 
https://books.google.de/books?id=P6woAAAAYAAJ&dq=schlessing%20Deutscher%20Wortschatz&source=gbs_similarbooks
 

Всего записей: 2062 | Зарегистр. 27-04-2006 | Отправлено: 12:27 28-10-2019 | Исправлено: cuneiform, 12:47 28-10-2019
Shurix83

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
cuneiform

Цитата:
поиск нашел 88 результатов, на экране только 3 видно, качество имхо хорошее, но как увидеть другие 85? 

https://books.google.by/books/about/Deutscher_Wortschatz_oder_Der_passende_A.html?id=sZFBAAAAYAAJ&redir_esc=y
 

Цитата:
И нельзя ведь скачать, только онлайн смотреть.  

Если присутствующих тут интересовали авторские права, то они бы не занимались сканированием книг
Воспользуйтесь Google Books Downloader . Или же вот я вам скачал и залил сюда - https://dropmefiles.com/6ANBU
 
 

Цитата:
По поиску гуглбукс, они ее отсканировали 11 раз разных годов изданий более 100 лет возрастом, но не дают скачивать, правообладатели, значит. Все дело в правообладателях.  

Не знаю, мне показывает пляшку "Ebook - Free", значит, можно невозбранно просматривать в полной мере и, соответственно, скачать с помощью Google Books Downloader или другой подобной утилиты.

Всего записей: 84 | Зарегистр. 12-04-2007 | Отправлено: 14:57 28-10-2019
cuneiform

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shurix83
 
Спасибо большое за файл.  
Верно, гуглу не нравится мой IP.  
Буду пробовать сменить, может потом смогу сам закачивать.
Вот что я вижу в ХР (Chrome, FFox), 10 (Opera, Е-edge) на 2 компах.
Нет никаких сообщений о книгах. Пустое место  (кликнуть).
 

 
Хороший имхо скан.  
Только в начале книги на страницах  X, XI, XII засветка синим цветом.  
Как ее убрать? -

Всего записей: 2062 | Зарегистр. 27-04-2006 | Отправлено: 20:50 28-10-2019 | Исправлено: cuneiform, 20:54 28-10-2019
Shurix83

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Только в начале книги на страницах  X, XI, XII засветка синим цветом.  
Как ее убрать? -

Берите Adobe Acrobat, извлекайте нужные страницы с этого PDF (или любого другого), правьте в Фотошопе и вклеивайте назад - в этом PDF я вставил точную копию того, что вам по ссылке давал.

Всего записей: 84 | Зарегистр. 12-04-2007 | Отправлено: 21:14 28-10-2019
cuneiform

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Спасибо. - C VPN появилась возможность скачивать книги с books.google  .  
Теперь смогу выложить книгу на twirpx. - Спасибки.    
 

Всего записей: 2062 | Зарегистр. 27-04-2006 | Отправлено: 22:15 28-10-2019
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Shurix83

Цитата:
Берите Adobe Acrobat, извлекайте нужные страницы с этого PDF...

 
Ещё дополнительный софт для извлечения растра из PDF:
http://forum.ru-board.com/topic.cgi?forum=5&topic=17599&start=800#16

Всего записей: 2794 | Зарегистр. 31-05-2010 | Отправлено: 04:25 29-10-2019 | Исправлено: ComboFZ, 05:42 29-10-2019
arnyc



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Подскажите, какая версия ST от какого автора мода обеспечит наилучший деварпинг этого примера фотки страницы книги снятой в JPEG с руки камерой смартфона, и с какими конкретно параметрами? Ясно, что разрешение разных страниц будет немного отличаться при таком методе съёмки, хотя рамкой служил контур книги.
 
ComboFZ

Цитата:
Размер меньше

Можно ли уменьшить размер файла по ссылке выше до 50-70КБ без заметных потерь качества текста, в каком сабже и с какими настройками?

Всего записей: 1191 | Зарегистр. 28-05-2003 | Отправлено: 00:17 10-12-2019 | Исправлено: arnyc, 16:44 10-12-2019
derrikF



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Подскажите, какая версия ST от какого автора мода обеспечит наилучший деварпинг этого

Scan Tailor experimental https://github.com/Tulon/scantailor/releases

Всего записей: 235 | Зарегистр. 25-02-2007 | Отправлено: 18:33 21-12-2019
yozhic



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
4lex4
В продолжение этой переписки. У меня в 64-битном ST 2019.8.16 EA (с Qt 5.13) под виртуальной Win 8.1 x64 продолжают вылезать глюки: создание зон заливки с зажатым Ctrl не работает, перемещение полезной области в режиме Поля с зажатым Ctrl срабатывает не с первого раза и др. В общем пока пересел в 32-битный ST (с Qt 5.6) – в нём всё работает.
 
В связи с этим к Вам просьба-вопрос (если это не сильно накладно по времени и усилиям): может стоит в следующий раз Вам собрать ST с разными Qt – версию с новым-последним и версию с одним-из-старых-стабильных? Я понимаю, что, возможно, таких нетрадиционных как у меня случаев немного – старая Windows да ещё и на виртуалке – может и нет смысла Вам возиться с этим. Но сейчас по крайней мере есть хоть возможность пересесть на новую версию ST с другим-старым Qt и спокойно работать. А то, боюсь, сделаете в следующий раз всё с одним-новым Qt и останусь я за бортом ))
 
Уж больно 10-ку не хочется устанавливать, боюсь вместо нормальной работы придётся опять уйму времени/сил тратить на поиск обхода её глюков, багов и ограничений.
 
Добавлено:
Такое впечатление, что 32-битный ST заметно медленнее работает чем 64-битный (или я ошибаюсь?). В общем, было бы здорово, если бы и у 64-битного ST была б версия со старым Qt.

Всего записей: 2773 | Зарегистр. 20-03-2008 | Отправлено: 15:48 27-12-2019 | Исправлено: yozhic, 15:56 27-12-2019
   

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200

Компьютерный форум Ru.Board » Компьютеры » Программы » Scan Tailor (часть 2)
Maz (10-01-2024 10:45): Scan Tailor (часть 3)


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru