Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Открыть новую тему     Написать ответ в эту тему

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: useretail, 17:00 11-02-2024
MBK2

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
popov_al
Вообще звучит примерно так: "Нашел картинку Моны Лизы на конфетной обертке, сканирую ее и так и эдак, получается полное хавно. Между тем я видел в глянцевом журнале эту картинку гораздо более хорошего качества - вот какими инструментами люди умудряются так хорошо улучшить качество изображения?"

Всего записей: 4576 | Зарегистр. 18-09-2018 | Отправлено: 20:44 16-11-2023
73



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
popov_al
Все именно так. Задатчик бесконечного количества бессмысленных вопросов был послан к азам графики, как растровой, так и векторной, безотносительно к ее применению, но ЧСВ помешало прочесть и понять замусоленные за десятки лет материалы, вместо этого посыпались все те же вопросы. А ведь достаточно было поглядеть на программу, в которой был создан PDF файл (свойства) , найти ее в инете и не сношать мозги окружающим на предмет FR/текстовых слоев и остальной бредятины. Вот один бредоперл:
Цитата:
А я могу так же эти векторные шрифты сделать на своих PNG рисунках, например на странице 237 мой пример - Вот Вы применили векторные шрифты на рисунке или нет? И вообще как их делать? Векторные шрифты что увеличивают чёткость шрифты, да и ещё и уменьшают размер выходного PDF?
No comment.

Всего записей: 1151 | Зарегистр. 18-08-2012 | Отправлено: 21:23 16-11-2023
Dracula



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
"Метод компрессии: JPEG/ZIP. Качество JPEG: Низкое".

PDF-XChange Editor > Главная > Редактировать сообщение нажимаю именно (даже если выделено уже) и на самом черепе нажимаю ПКМ и выбираю "Перекодировать изображение" > и внизу в "Параметры изображения" вижу это .
 

Цитата:
Для того, чтобы текст в моём самодельном "true pdf" был похож на оригинальный

Ой ё - это вообще заморочки пошли - сделать как в оригинале. Зачем это нужно - это очень сложно - сам основной шрифт узнать, подписи, страницы, подписи к рисункам и т.д. Это вообще мне не нужно.
Тем более у меня будут в будущем только рисунки с издательств и если только с них при распознавании узнать наименование шрифта - хотя думаю в ABBYY FineReader не покажет точного названия.
 
Мне же нужно только распознавание картинки и вытаскивание оттуда текста и обрамления картинок и всё. Заморочки вести с узнаванием всех шрифтов в книге - я так могу годами делать небольшое кол-во книг - а мне говорят про кол-во, это я сам про качество веду. Взять рисунки с издательства в отличном качестве - это типа как отсканировать не сканере книгу и вот сейчас мы узнаём как и чтобы по качеству не упало и размер не стал бы огромным при сохранении в PDF.
 
popov_al

Цитата:
в результате скачал эту книгу в виде картинок и просит "общественность" научать его сделать из картинок красивый .PDF ?  

Конкретно по данной книге, я её не качал постранично, а нашёл уже готовую, если бы Вы читали мой "флейм" внимательно выше нескольких постов, я как раз говорил о том, что я нашёл данную книгу и там рисунки обрамлены, потом мне объяснили, что она прямиком от издательства.
 
Или Вас что-то смущает? По моему это форум, где обсуждают редактирование PDF - тема не названа "Доктора наук на конференции, с целью обсудить и передать опыт МЕЖДУ СОБОЙ".

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3501 | Зарегистр. 22-12-2003 | Отправлено: 21:30 16-11-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
popov_al
Сорри за оффтоп.

Цитата:
я правильно  понимаю, что весь этот флейм был
 
1) Цитата из русскоязычной Википедии:

Цитата:
Флейм (от англ. flame — огонь, пламя) — «спор ради спора», обмен сообщениями в местах многопользовательского сетевого общения (напр. интернет-форумы, чаты, социальные сети и др.), представляющий собой словесную войну, нередко уже не имеющую отношения к первоначальной причине спора. Сообщения флейма могут содержать личные оскорбления и зачастую направлены на дальнейшее разжигание ссоры.

Лично я не вижу в вышенаписанных сообщениях никакого "спора ради спора", "словесной войны", а личные оскорбления поступили только от 73, но мы уже привыкли к такому.
Если же усмотрели в вышенаписанных сообщениях флуд, то:
- путать с флеймом для юзера с 2008 года как-то странно
- флуда всё равно нет
- не нравится флуд - пиши модератору
- самовольное модерирование преследуется по закону
2)
Цитата:
разведен только по одной причите - что "товарищ" не умеет пользоваться поиском в и-нете

Если бы вы сами действительно умели пользоваться поиском в интернете, то знали бы, что:
- чтобы в поиске в интернете получить правильный ответ, надо задать правильный вопрос. А задать правильный вопрос можно только хотя бы частично зная ответ. Т.е. правильный ответ находится после многих неправильных и правильных ответов - методом последовательного приближения
- как только на поиске начали зарабатывать деньги, то ответы из поиска начали напоминать шарлатанскую лотерею, где первые те, кто больше заплатил
- многих ответов в поиске вообще не найти, потому что они находятся после того, как вопрос был задан. Нельзя найти то, чего ещё нет.
- большинство книг, фильмов, музыки, созданные в ближайшие сто лет, находятся под охраной копирайта, поэтому многие вопросы, связанные с обработкой защищённых материалов, находятся на ресурсах, которые удалены из поисковой выдачи
73

Цитата:
А ведь достаточно было поглядеть на программу, в которой был создан PDF файл

Вы это про мой файл? Я при его создании использовал 5 (пять) программ. Плюс ещё в нескольких пробовал изменить результат. Как вы понимаете, всех этих программ в метаданных pdf-файла не видно.  
Кроме того, я использовал методы, про которые создатели этих программ вообще не подозревали.
MBK2
Вы, как всегда, ничего не поняли.
Выражаясь вашими словами, "Мне подарили репродукции всей третьяковки в отличном качестве, как мне сделать каталог галереи быстро и без особых усилий, потому что ни одна из программ такого нормально не может сделать"

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 21:42 16-11-2023 | Исправлено: jourmager, 21:53 16-11-2023
MBK2

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
Кроме того, я использовал методы, про которые создатели этих программ вообще не подозревали.

Это просто шедеврально!

Всего записей: 4576 | Зарегистр. 18-09-2018 | Отправлено: 22:15 16-11-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
MBK2

Цитата:
Это просто шедеврально!

Т.к. вы юродствуете только с этого, значит с остальным вы согласны. Ну ОК.
Но вы опять ничего не поняли. Как всегда.
Например, на одной из итераций, я решил сделать OCR на файле pdf, который вообще не содержал текста. Я очень сильно сомневаюсь, что о таком методе применения OCR подозревали создатели программы. Это чистой воды извращение, но создатели программы не оставили мне другого выбора. Почему и зачем мне пришлось это сделать - ответ очень простой, но т.к. вы ничего не знаете и не умеете (в данном контексте), то и правильного ответа никогда не дадите.
Dracula

Цитата:
вижу это

Мне лень рисовать стрелки и кружки на вашем скриншоте, поэтому словами.
Вы видите в самом верху название окна - "Перекодировать изображение"
Под ним слева вверху заголовок "Детали изображения"
Под ним таблицу с тремя колонками, две из которых называются "Текущее изображение" и "Сжатое изображение".
"Текущее изображение" - это то, которое присутствует в pdf-файле в текущий (настоящий) момент. В данном случае оно имеет сжатие jpeg и размер в 3 раза больше, чем будет в "Сжатом".
"Сжатое изображение" - это то, которое появится на месте "Текущего", если вы примените настройки - те самые, которые вы обвели красным прямоугольником и ткнули стрелкой.
Это я к тому, что в данном случае в своём файле я применил jpg с сжатием high. У сжатия medium на определённых изображениях появлялись бы заметные артефакты, сжатие Maximum не имеет смысла из-за большого размера и наличия артефактов.

Цитата:
Ой ё - это вообще заморочки пошли - Это вообще мне не нужно.

Вы не знаете, что вам нужно, пока вы с этим не столкнулись. Я вообще только приблизительно догадывался, что вы хотите.
Я просто показал, что сравнительно быстро и просто можно сделать настоящий true pdf из растровой картинки. И какие проблемы при этом будут.

Цитата:
Мне же нужно только распознавание картинки и вытаскивание оттуда текста и обрамления картинок и всё.

Немного ранее вы писали:

Цитата:
Ужас - это просто будет выглядеть как напечатанный в Word текст с белым чистым фоном - но это предполагает же, что будет только распознанный OCR наверху стоять - а теперь я понял, когда Вы говорили про, кто будет исправлять OCR на правильность - аха-ха - не, такое не нужно - 100% будет OCR под картинкой.


Цитата:
мне сейчас и этого достаточно - взять изображения и сохранить (с OCR слоем) в PDF и всё.

т.е. сейчас вам нужен совершенно другой метод создания pdf. Как я и написал ранее, Вы не знаете, что вам нужно, пока вы с этим не столкнулись.
И напомню, что я написал ранее:

Цитата:
Ну да. Отличный вариант. А кто будет вычитывать на ошибки получившийся pdf после OCR? Я не буду. Автор треда, наверное, тоже нет, у него другие задачи. А вы будете? Всего-то 250 страниц медицинского специального текста. Это в одной книге. А книг десятки, а может сотни. Ну как, берётесь?
P.S. Я ещё забыл про подбор десятка шрифтов по размеру, начертанию, цвету, толщине для режима "Текст + изображение". Иначе к чему вот это вот всё?

Вам придется вычитывать распознанный текст, и не один раз, потому что если в предложении из книги "Депонирование обезболивающего раствора в области бугра верхней челюсти в количестве 2–3 мл" OCR вместо 3 вставит 8, то отвечать за смерть пациента от передоза артикаином будете вы.
Вы же сами писали ранее:

Цитата:
Мне достаточно установить нужные языки и всё - даже если не 100% распознает - этого достаточно будет - кто возьмёт скопирует текст к себе - уже сможет подправить глядя на оригинал книги. Это меня меньше всего волнует.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 00:30 17-11-2023 | Исправлено: jourmager, 00:33 17-11-2023
Dracula



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
Вы видите в самом верху название окна - "Перекодировать изображение"  

Ну да точно - это же я нажал на перекодировать изображение - типа если бы я хотел перевести в другой формат и внизу пкоазывает тот формат который я бы хотел чтобы был фактически потом - и выбрать параметры.
 
Просто у меня в голове до сих пор сидела мысль, что я просто смотрел свойства изображения - а здесь просто так извратно нужно зайти, чтобы увидеть свойства текущего документа.
 

Цитата:
Цитата:
Мне же нужно только распознавание картинки и вытаскивание оттуда текста

Вот это я видимо не точно написал - я имел ввиду, конечно же не текст над изображением, а как и до этого текст под изображением. Под вытаскивание текста я имел ввиду OCR слой просто.
 
Распознавание, обрамление картинок - перевод в оригинальный OCR слоя над изображением и обрамелние картинок - вот и всё что мне нужно.  
Я так и не понял про обрамление картинок до сих пор. Я поставил на виртуалку Windows 10 там установил ABBYY FineReader 16 PDF и распознал как и в 15 версии и пытаюсь объединить OCR слой и обрамление картинки но у меня только маленькая версия встаёт только слева - уже 5 раз пробовал.

 
Но думаю - это всё равно было бы наложение картинки на картинку - т.е. в 2 раза увеличение размера.

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3501 | Зарегистр. 22-12-2003 | Отправлено: 03:11 17-11-2023 | Исправлено: Dracula, 03:12 17-11-2023
73



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Через четверть века хомячки начали подозревать, что текст на картинке, полученный из сканера никак не может быть эквивалентен набранному на клавиатуре, проверенному и векторизованному, поскольку все без исключения OCR, существующие на сегодняшний день, не имеют мозгов и вносят невероятное количество ошибок, а OCR AI еще писается в пеленки и стОит как крыло от "Боинга". На следующем шаге хомячки поймут, что текст под изображением делается самодельщиками "на отгребись", лишь бы был, пусть желающие сами его проверяют, а вот изображение растрового текста желательно сделать получше. Для чего уже третий десяток лет идут нескончаемые дебаты в топиках по электронным книгам, СканКромсатору, СканТейлору и прочим таким инструментам. Пока что в них не видно большой красной кнопки ""Сделай мне зашибись!", после нажатия которой все мечты книгосоздателя будут реализованы. Поэтому нудное чтение, потом не менее нудное приобретение опыта в части обработки сканов, как текста, так и рисунков за эти четверть века никуда не делось. Будет ли результат в виде DJVU или PDF - роли не играет. На третьем этапе хомячки поймут что самодельные книги и профессионально выполненные в издательских программах не имеют между собой ничего общего. И пытаться заменить толпу людей на приличной зарплате с многотысячедолларовыми софтами на компах при помощи собссной коленки, пальца и потолока, не имеет смысла, это две параллельные вселенные.
P.S. Чтобы несколько облегчить труд по обработке сканированных изображений, Адоба когда-то изобрела Clear Scan, но увы, забросила его практически сразу, остановившись на полпути. Поэтому эффект от CS есть, но не такой, как хотелось бы и ожидалось. С появлением AI, скорее всего, это тупиковое направление.    

Всего записей: 1151 | Зарегистр. 18-08-2012 | Отправлено: 07:54 17-11-2023 | Исправлено: 73, 07:58 17-11-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dracula

Цитата:
Я поставил на виртуалку Windows 10 там установил ABBYY FineReader 16 PDF

По моих наблюдениях отличий FR16 от FR15 практически нет

Цитата:
Я так и не понял про обрамление картинок до сих пор.

Чтобы картинки "обрамлялись", они должны представлять собой отдельные файлы внутри pdf.
Насколько мне известно, распознавание с таким нарезанием целой страницы на отдельные иллюстрации может делать только FineReader в режиме текст + изображение.
Т.е. одновременно "обрамление" картинок и "текст под изображением" сделать нельзя.
Ну, вообще-то можно, но это будет уже запредельное извращение.
 
73
Вот вы всё правильно написали, за исключением некоторых мелочей:
0) слово "хомячок" имеет отрицательную коннотацию, не претендующее на прямое оскорбление, но всё же лишнее в данном контексте
Далее пишу без применения тега "цитирование" для экономии места
1) "не может быть эквивалентен набранному на клавиатуре, проверенному"
Бу-га-га. Почитайте профильные топики на профильных ресурсах с матюками в сторону издательств, которые пропускают кучу ошибок. Зайдите на сайты издательств, у которых есть errata для своих книг. Также надо учитывать, что проверка орфографии и грамматики сейчас делается автоматически с помощью специализированных программ (или режимов в программах), т.е. к ошибкам наборщиков добавляются ошибки программистов
2) "все без исключения OCR ... вносят невероятное количество ошибок"
Голословно. Я намедни распознавал страницу из медицинской книги. Одна ошибка: в написании (рис. 10.3–10.5) вместо тире был поставлен компьютерный дефисо-минус. Ошибка элементарная и недопустимая для OCR-программы, но весь остальной (очень специфический) текст был распознан правильно.
3) "Поэтому нудное чтение, потом не менее нудное приобретение опыта в части обработки сканов, как текста, так и рисунков за эти четверть века никуда не делось."
Ой, да ладно вам. Почему нудное? Любая современная программа обработки текстов осваивается очень быстро - они рассчитаны на домохозяек, или на офисный планктон, который по объявлению набрали.  
То, что "уже третий десяток лет идут нескончаемые дебаты в топиках по ... СканКромсатору" - это проблемы интерфейса СканКромсатора, за который его не пинал только ленивый, и проблемы формата djvu, под который заточен СканКромсатор
То, что "уже третий десяток лет идут нескончаемые дебаты в топиках по ... СканТейлору" - это проблемы вообще всего фришного софта (в отличие от коммерческого) - несколько вариантов под одним названием, заброшенность на полдороги, автор делает то, что хочет он, а не пользователи, существование только в исходниках, многим авторам-программистам интересно только принципиальное решение проблемы, без учёта взаимодействия с пользователем т.д.
4) "пытаться заменить толпу людей на приличной зарплате с многотысячедолларовыми софтами ... не имеет смысла"
Бу-га-га. Офисный планктон тыкающий в клавиатуру 8 часов за зарплату которой еле хватает на айфон (доширак/форд фокус/ипотеку) в кредит - это люди на приличной зарплате?
"многотысячедолларовыми софтами" - Acrobat Pro стоит по подписке 20 долларов в месяц, Adobe InDesign - $23/month. А потом зайдите в местный варезник, где этот софт вообще бесплатно предлагают для скачивания, т.е. "хомячки", как вы изволили выразится, могут работать на тех же программах, что и "люди на приличных зарплатах".

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 13:13 17-11-2023
73



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Офисный планктон тыкающий в клавиатуру 8 часов за зарплату которой еле хватает на айфон (доширак/форд фокус/ипотеку) в кредит - это люди на приличной зарплате?
"многотысячедолларовыми софтами" - Acrobat Pro стоит по подписке 20 долларов в месяц, Adobe InDesign - $23/month.
В народе есть такая поговорка (ничего личного, ни на кого не намекаю!) - альтернативно одаренным с ментальными особенностями закон не писан, если писан, то не читан, если читан, то не понят, если понят, то не так. Если человек берется судить о тех вещах, в которых он понимает не больше чем одно вкусное животное в не менее вкусных фруктах, то пытаться ему что-то объяснять, не только бесполезно, но и вредно. Большей частью для объясняющего.
 

Всего записей: 1151 | Зарегистр. 18-08-2012 | Отправлено: 14:38 17-11-2023
Dracula



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager

Цитата:
Т.е. одновременно "обрамление" картинок и "текст под изображением" сделать нельзя.  

Вот теперь я осознал это.  
Т.е. если и будет обрамление картинки, то сам текст будет так сказать "Text over the page image". То есть текст должен быть 100% распознан и быть идентичен самой странице из книги, т.е. нужно выверять каждое слово будет.
 
В DJVU можно было картинки вырезать (обрабатывать их отдельно) и потом объединять. При этом кодируя сам текст именно как "Text under the page image".  
 
Жаль, что здесь так нельзя.


----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3501 | Зарегистр. 22-12-2003 | Отправлено: 16:29 17-11-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Dracula
В DJVU можно было картинки вырезать (обрабатывать их отдельно) и потом объединять.

в pdf можно сделать точно так же. Но "выделяться" картинки и в дежавю не будут. Да, они будут в другом слое, не в тексте.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 16:49 17-11-2023
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
jourmager

Цитата:
проблемы формата djvu, под который заточен СканКромсатор

После этого возникают вопросы об обоснованности других ваших заявлений.
Не стоит высказываться о том. в чем вы практически не разбираетесь.

Всего записей: 6972 | Зарегистр. 14-01-2005 | Отправлено: 17:12 17-11-2023
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dracula
 
Для FineReader 14 OCR: Инструменты -> Настройки -> Настройки форматов -> PDF -> Создавать теги PDF (огалчить чекбокс).
 
В этом случае области страницы/скана, выделенные как картинки в FR, будут идти отдельным слоем (отдельными растровыми объектами каждая) в сохранённом "Как текст под изображением страницы" PDF.

Всего записей: 2794 | Зарегистр. 31-05-2010 | Отправлено: 17:14 17-11-2023 | Исправлено: ComboFZ, 00:21 19-11-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
shch_vg

Цитата:
Не стоит высказываться о том. в чем вы практически не разбираетесь.

1) А что вам не понравилось?
1а) моё утверждение, что формат djvu имеет проблемы?
1б) моё утверждение, что SkanKromsator заточен под djvu?
1в) оба п.1 и п.2 ?
2) я свои утверждения могу аргументировать, а от вас контраргументов можно будет дождаться?
Я охотно поменяю свою точку зрения при наличии весомых контраргументов от кого угодно.
3) "После этого возникают вопросы об обоснованности других ваших заявлений."
Абсолютно ложное утверждение. Если я не разбираюсь (допустим) в djvu и ScanKromsatore, то почему я не разбираюсь в pdf или в ценах на подписку на продукты Adobe?
4) Насколько я понял, если на эту тему реплики от вас не было, то вы согласны с моим утверждением, что "уже третий десяток лет идут нескончаемые дебаты в топиках по ... СканКромсатору" - это проблемы интерфейса СканКромсатора. Ну, ОК. Хоть в чём-то по вашему мнению я разбираюсь.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 18:17 17-11-2023
Dracula



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
Но "выделяться" картинки и в дежавю не будут.

О, точно - я давно не открывал DJVU книги - и специально открыл именно ту, которую я сам делал в 2007 году и реально - только текст выделяется, а картинку нужно специально нажать на кнопку "Выделить область", чтобы выделить картинку и она будет выделяться и вставляться не так, как я её обрабатывал, а как я выделю, так и скопируется.
 
Ну всё - от души отлегло. Значит можно обрабатывать PDF книги в ABBYY Finereader 15 OCR-редакторе и просто в PDF-XChange Editor объединять текстовый слой с черновика на оригинал. Будет то же самое, что и в DJVU - круто.
 
Короче вывод - только книги из издательства могут выделяться при нажатии на изображение. Следовательно если в интернете я найду какую-то книгу и там выделяется изображение - можно сразу будет понять, что книга 100% от издательства (я не беру в расчёт книги "Text over the page image" кто сам выверял каждое слово).
 


----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3501 | Зарегистр. 22-12-2003 | Отправлено: 18:37 17-11-2023
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Я был неправ, когда утверждал, что

Цитата:
Чтобы картинки "обрамлялись", они должны представлять собой отдельные файлы внутри pdf.

Спасибо ув. ComboFZ, что подсказал решение в виде tagged pdf with OCR text under image, если его изготовить в FineReader OCR Editor с анализом и последующим выделением нужных изображений и сохранением как тэгированного pdf.
В этом случае FineReader OCR Editor из одного изображения страницы делает два:
- одно с текстом и пустым местом на месте изображения (формат jpeg2000)
- второе с вырезанным изображением (формат jpeg2000)
dpi сохраняется исходный.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 18:49 17-11-2023
ComboFZ

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Dracula
Не стоит копипастить текст (использовать буфер обмена) при работе в PDF-XChange Editor. Текстовые объекты после FR уже оптимизированы в OCR-слое PDF, не прикасайтесь к ним.
 
Если нужен OCR-текст из PDF от FineReader:
для PDF-XChange Editor Plus 7.0  
В окне программы внизу, слева, жмём на иконку шестерёнки Параметры > Контент. Слева откроется панель Содержание.
Жмём в панели Содержание, вверху, на иконку шестерёнки Параметры > Выбранные > Текст (выделятся все текстовые объекты/шрифты).
Далее вкладка
Главное > Выделенное > Новый документ из Выбранного
Сохранить PDF.
Получите OCR-текст от FR без манипуляций с буфером обмена.
При этом страницы без текстовых объектов (шрифтов) не генерируются в новом документе т.е. новый документ будет с меньшим количеством страниц, нужное количество чистых страниц надо добавлять отдельно.
 
Не забываем, что в разных версиях FineReader OCR-текст под изображениями/сканами в полученном PDF бывает, по умолчанию, как с включенной заливкой в шрифтах, так и с выключенной. Копипаст и поиск по тексту будет в обоих случаях.
При надобности заливку в шрифтах можно включить/отключить в том же PDF-XChange Editor.

Всего записей: 2794 | Зарегистр. 31-05-2010 | Отправлено: 19:03 17-11-2023 | Исправлено: ComboFZ, 16:45 16-12-2023
Dracula



Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
ComboFZ

Цитата:
Для FineReader 14 OCR: Инструменты -> Настройки -> Настройки форматов -> PDF -> Создавать теги PDF (огалчить чекбокс).
 
В этом случае области страницы/скана выделенные как картинки в FR будут идти отдельным слоем (отдельными растровыми объектами каждая) в сохранённом "Как текст под изображением страницы" PDF.  

 
jourmager

Цитата:
последующим выделением нужных изображений

Сделал я так - сохранил PDF - он выделяет изображения. Но здесь же, как утверждали, ABBYY Fine Reader 15 OCR-редактор переконвертирует PNG в свои JPEG2000 - поэтому я и после ABBYY Fine Reader 15 OCR-редактор хочу использовать в PDF-XChange Editor для вставления OCR слоя в оригинальный PDF (который я создал в Adobe Acrobat Pro, а не в ABBYY FineReader 15 OCR-редактор что мне сохранил после OCR.
 
Как это сделать? Чтобы в оригинальном PDF у меня и текст OCR был и выделялись рисунки для копирования?
 
Я попробовал проделать это с ABBYY FineReader PDF 15 (без OCR-редактора) (т.к. в этой версии не меняется на JPEG2000 принудительно) - с включённой галочкой "Создавать теги PDF" - но при сохранении в PDF изображение не выделяется опять. Потому что в этой версии ABBYY не позволяет же просматривать распознанный текст и видимо изображение и не выделяется.
 
Кстати почему в ABBYY FineReader PDF 15 при распознавании, как в ABBYY FineReader 15 OCR-редакторе автоматически не выделяется изображение? Попробовал выделить изображение и установить как в ABBYY FineReader 15 OCR-редакторе как картинка - но нет таких здесь даже функций.

----------
+=._.=++=._.=++=._.=++=._.=++=._.=++=._.=++=._.=+

Всего записей: 3501 | Зарегистр. 22-12-2003 | Отправлено: 19:40 17-11-2023 | Исправлено: Dracula, 20:03 17-11-2023
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Dracula
Как это сделать?

мне кажется, вы требуете невозможного. pdf устроен не так уж просто, состоит из массы объектов. Объекты взаимосвязаны. И вот так вот "хопа! и часть объектов перенеслась и сама собой с новыми объектами в другом пдф связалась" - не выйдет.
Возможно, что-то можно сделать через слои. Но лично у меня ничего никогда не выходило.
Сама задача противоестественна - использовать ФР, а затем его результат ломать об коленку.
 
Моё IMHO, разумеется. В pdf я дилетант.
 
Добавлено:

Цитата:
Чтобы в оригинальном PDF у меня и текст OCR был и выделялись рисунки для копирования?

К тому же: ведь в оригинальном pdf НЕТ объектов-изображений, если я всё правильно понимаю. Есть только скан страницы. Откуда же тогда возьмётся выделение изображения.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 19:53 17-11-2023
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru