Перейти из форума на сайт.

НовостиФайловые архивы
ПоискАктивные темыТоп лист
ПравилаКто в on-line?
Вход Забыли пароль? Первый раз на этом сайте? Регистрация
Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов

Модерирует : gyra, Maz

 Версия для печати • ПодписатьсяДобавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Открыть новую тему     Написать ответ в эту тему

Skyer

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Редактирование PDF файлов

В этой теме обсуждается редактирование (обработка) PDF файлов, которые бывают трех типов:
- "True" or Real PDF - "настоящий" PDF с векторными текстом и графикой, возможны вставки растра
- Scanned PDF - растровая графика (скан или фото), помещенная в контейнер PDF
- Searchable PDF - растровая (скан или фото) графика с текстовым слоем
Подробнее о типах PDF: Types of PDFs, The 3 Types of PDFs You Need to Know About




Решение типичных задач по редактированию PDF

Обрезать страницы - Acrobat Pro (main app), QIP*/Imposal(plugins), VeryPDF Advanced PDF Page Cut
Разрезать страницы на части - VeryPDF Advanced PDF Page Crop, A-PDF Cut
Склеить страницы между собой - VeryPDF PDF Stitch, Acrobat Pro + QIP* or Imposal
Удалить или редактировать метаданные - BeCyPDFMetaEdit, Adept PDF Layout Changer
Изменить размеры страницы - Acrobat Pro + Evermap AutoPagex , A-PDF Page Master, Neevia PDFtoolbox,  
Измененить/исправить размер страниц с масштабированием содержимого
Изменить размеры страницы, изменить масштаб контента, сдвинуть контент, замаскировать часть страницы и многое другое - Acrobat Pro + Evermap AutoPagex
Исправить наклон страниц -  Acrobat Pro + Evermap AutoPagex/ISI Toolbox, A-PDF Deskew, A-PDF Scan Optimizer  
Наложить PDF на PDF, страницу поверх страницы (Overlay)
О технологии MRC с примерами - 1, 2
Работа с изображениями (подрезка, масштаб, сжать/растянуть) - Inkscape
Преобразование изображений, текста в оттенки серого или в ч/б - A-PDF to Black White или Acrobat Pro + Quite A Box Of Tricks/ISI Toolbox
Извлечение растровых изображений из PDF
Удалить текст без замены, в т.ч. кириллицу - PDF Text Deleter
Удалить растровые ватермарки - PDF Watermark Remover или PDF Logo Remover, в сложных случаях - Foxit PDF Editor с макросом, Acrobat Pro + Preflight, CallasPDF Toolbox
Удаление любых ватермарков - We PDF Watermark Remover
Как/чем узнать Свойства растровых изображений в PDF: битность, цвет, dpi/ppi, разрешение px, формат сжатия, размер mm, наличие маски и т.д. - 1, 2
Редактировать текст - PDF-XChange Editor, Acrobat Pro, FineReader 14 (не OCR-модуль) и новее, Infix PDF Editor, Foxit PDF Editor, PixelPlanet PdfEditor
Удалить или заменить часть текста или текстовые ватермарки - Acrobat Pro, A-PDF Text Replace
Конвертация PDF таблиц в Excel - PDF2XL (da best!)
Заменить цветное векторное изображение на серое - Acrobat Pro + Preflight
Растровый редактор и манипуляции с изображениями в PDF - Foxit PDF Editor и Acrobat Pro + ImageWorks из Crackerjack
Удалить/заменить/создать текстовый слой в PDF файле с помощью Acrobat Pro
Растеризовать pdf - Digitzone PDF Converters
Один из вариантов решения проблем с кракозябрами: видео (зеркало)
* - Quite Imposing Plus
 
 
Если вы задаете вопрос по поводу проблем с PDF файлами, обязательно выкладывайте небольшой пример (только не сотни метров!) такого файла. Это упростит задачу для желающих вам помочь и сделает обсуждение предметным.

Всего записей: 122 | Зарегистр. 01-06-2002 | Отправлено: 03:40 13-11-2005 | Исправлено: useretail, 17:00 11-02-2024
shch_vg

Gold Member
Редактировать | Профиль | Сообщение | ICQ | Цитировать | Сообщить модератору
Ciber SLasH

Цитата:
Помогите пожалуйста пересобрать PDF, чтобы работал поиск.

Для этого не надо ничего пересобирать. Надо Файнридером распознать и тихо радоваться жизни

Всего записей: 6972 | Зарегистр. 14-01-2005 | Отправлено: 18:37 04-03-2024
www_world

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ciber SLasH

Цитата:
Помогите пожалуйста пересобрать PDF, чтобы работал поиск.
К примеру, ищем RN804, а поиск ничего не находит.
Страница из PDF.

Думаю, что конкретно приведенный вами пример безнадежен в смысле организации текстового поиска. Всякие файнридеры тут не помогут, поскольку распознавание и последующее исправление дольше, чем нарисовать схему с нуля.
Проблема проистекает от того, что изначальный формат схемы (он векторный) абсолютно не знаком программе, которая создавала ПДФ (указана Foxit PDF Editor 2.2, но возможно ей только страницу выдернули, а весь документ создан в другой программе). Причем незнаком настолько, что она не только не различает текстовые поля схемы, но и нередко деформирует их и другие объекты.
Возможно это сделано специально или непредумышленно.
Если вы не располагаете схемами в изначальном векторном формат, который можно было бы пытаться распечатать в ПДФ в разных программах с разными настройками, то боюсь вариантов (если не считать составления индекса вручную - это быстрее, чем с OCR в данном случае) приемлемых нет.
Добавлено:
Судя по всему какой-то безголовый умник уже пытался "улучшить" схему с помощью говнопрожек типа распознавалок* и/или редакторов**, чем фактически убил ее. Если до него она была, очевидно, годна (в силу изначальной нативной векторности) для печати в формате, хоть A0 и больше, и просмотра на больших экранах, от 4К и выше, то теперь это более чем непрезентабельно и годится лишь на безрыбье для личного использования.
Абсолютно безнадежный случай.
 
Мой совет: В случае векторных рисунков, схем и т.д. в виде PDF забудьте об OCR, редакторах и т.д., поскольку все они заточены под простейший текст, максимум с табличками. Все остальное векторное для них неперевариваемо, а потому оно будет превращено в растр (превращать вектор в растр - восьмой смертный грех) или испоганено, как в вашем случае.
_____________
* среди векторной схемы и векторных букв внезапно торчат растровые таблицы и растровые рисунки с низким разрешением.

 
** векторные подписи на схеме разъехались и смещены со своих изначальных мест и т.д.

Всего записей: 35 | Зарегистр. 04-11-2018 | Отправлено: 23:57 04-03-2024 | Исправлено: www_world, 23:21 05-03-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
www_world
поскольку распознавание и последующее исправление дольше, чем нарисовать схему с нуля.

ФР15 приемлемо, и автоматом, определяет текстовые блоки. поправить их размещение точно быстрее, чем схему нарисовать.
думаю, что имеет смысл - если не единичная схема - обучить ФР этому шрифту. больно он заковыристый для распознавания.
 
Но, самое-то главное, нафига вообще искать элемент на схеме. проще глазами найти. кабы это схема из миллиона транзисторов была, тогда да. а тут всего-то под двести контактов элементов, а самих элементов два десятка. вырожденная задачка.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 01:58 05-03-2024
www_world

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
ФР15 приемлемо

Ну так помогите делом человеку, а не словами, тем более конкретный пример имеется. Представите здесь результат, и о временных затратах сообщите. В чем проблема-то?

Всего записей: 35 | Зарегистр. 04-11-2018 | Отправлено: 03:02 05-03-2024
SGirl

Junior Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Добрый день.
Попался мне тут один файл pdf:
https://drive.google.com/file/d/0B6xhkmsz1gLLOVZNVG9YbG5MWFE/view?resourcekey=0-h2Byj40AAB4eK8pYTOrarQ
 
При весе в 11,5 Мб содержит в себе 416 страниц отсканированного текста в очень высоком качестве. Опции сжатия страниц:
https://i.ibb.co/ZxmWbSr/2024-03-05-021603.jpg
https://i.ibb.co/Kq6gSZd/2024-03-05-021724.jpg
 
Т.е. размер каждой страницы примерно 15-20 Кб при этом каждая страница это сканированное изображение с разрешением 600 dpi. Как достигнуть такого соотношения качества и сильного сжатия?  
 
Вот что у меня получается если выбрать максимальную силу сжатия в Jbig (в архиве исходники и готовый pdf):
https://small.fileditchstuff.me/s5/dKnpXyVbGgBecgOnNPmA.rar
 
У меня получается, что каждая страница весит 120-130 Кб. Заранее благодарна.

Всего записей: 108 | Зарегистр. 18-03-2010 | Отправлено: 03:31 05-03-2024
zvezdochiot



Full Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
SGirl say:

Цитата:
 размер каждой страницы примерно 15-20 Кб при этом каждая страница это сканированное изображение с разрешением 600 dpi. Как достигнуть такого соотношения качества и сильного сжатия?

Использовать 600dpi, как и сказано, а не 1800dpi, как у вас.

Всего записей: 562 | Зарегистр. 18-05-2023 | Отправлено: 06:18 05-03-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
SGirl
Вот что у меня получается если выбрать максимальную силу сжатия в Jbig

для получения наилучших результатов до сих пор, вероятно, без полного акробата не обойтись:
https://disk.yandex.ru/i/RKY8AP7CCzvLuA
308кб без ocr, 384 с ocr, но это именно акробатовский jbig2 "с потерями".  
Лично мне странно, почему так плохо ужимаются картинки.
 
upd
вариант через djvutoy вышел поменее
https://disk.yandex.ru/i/DzJ3gUQQ5x1a1A

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 07:47 05-03-2024 | Исправлено: TelecomUral, 07:54 05-03-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
Ciber SLasH
Приветствую всех!
Помогите пожалуйста пересобрать PDF, чтобы работал поиск.
К примеру, ищем RN804, а поиск ничего не находит.

CMap я вам в пдфку вставил:
https://disk.yandex.ru/d/gyms4vOcE94Vng
Букву подобрал только одну, "D". Строчка 19585, блок одиночных подмен. Дальше сами справитесь, по аналогии? Надо только в следующем блоке накладывающиеся символы исключить, а то они первый блок перекрывают. Ужасно муторно выискивать соответствия кодов Почти наверняка где-то в 06м объекте можно понять даже логику перекодирования (порядок появления символов), но мне честно лень.
Кстати возможно что при наличии CMap поможет редактор Infix.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 09:54 05-03-2024 | Исправлено: TelecomUral, 16:12 05-03-2024
Ciber SLasH



Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Приветствую всех!
Подскажите пожалуйста, как пересобрать PDF, чтобы работал поиск текста?

Всего записей: 262 | Зарегистр. 07-04-2016 | Отправлено: 11:47 08-03-2024
73



Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ciber SLasH
Второй заход за четыре дня. Попкорна много, внимательно слежу за развитием событий. Или ты уже успел забыть про предыдущую страницу?
Цитата:
Помогите пожалуйста пересобрать PDF, чтобы работал поиск. К примеру, ищем RN804, а поиск ничего не находит. Страница из PDF.

Всего записей: 1151 | Зарегистр. 18-08-2012 | Отправлено: 15:03 08-03-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
73

Цитата:
Попкорна много, внимательно слежу за развитием событий

Неужели вам это интересно? Какое тут может быть развитие? Эта проблема (с кракозябрами и абракадаброй в pdf-документах) уже многократно обсуждалась в рамках этого темы. Все рецепты уже предложены и обговорены. И в принципе они сводятся к тому, что предложили сейчас shch_vg и TelecomUral. И нет ничего нового под солнцем. Тлен и скукота. Тем более, что эти методы в данном случае работают, хотя и ограничениями, которые тоже неоднократно обсуждались в этой теме. Но, как это часто бывает, вопрошавшему это не надо, а надо "пересобрать".
 
P.S. мне тут в голову пришла идея. По аналогии с топиками в Андеграунде, где есть две темы: "Запросы..." и "Помогите за деньги..." надо ещё для исправления pdf-файлов такое сделать. Т.е. когда явно коммерческий запрос - иметь возможность захотеть компенсацию за потраченные время и усилия.

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 17:42 08-03-2024 | Исправлено: jourmager, 17:53 08-03-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору

Цитата:
jourmager
Все рецепты уже предложены и обговорены.

вообще-то если человек с темой незнаком, то можно считать что ничего "предложенного и обговоренного" не существует. Не перечитывать же всю ветку. Хотя поискать слово "крако" можно

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 17:58 08-03-2024
jourmager

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
если человек с темой незнаком

Человека интересует "поиск". Что мешает, перед тем как спрашивать, в версии для печати сделать поиск по ключевому слову "поиск"?
И буквально сразу же найти, например, такое:
SLasH
Advanced Member    Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Приветствую всех!
Есть PDF, в котором при поиске символов находятся совсем другие символы.
К примеру: ищем букву "u", находим букву "r".
Как это исправить?
Файл тут.
Всего записей: 723 | Зарегистр. 08-10-2002 | Отправлено: 11:52 25-01-2013

Всего записей: 730 | Зарегистр. 04-11-2019 | Отправлено: 18:11 08-03-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
jourmager
я не о том писал.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 18:20 08-03-2024
Jonmey

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Ciber SLasH
Вероятно в оригинале речь идет об этом файле (106 страниц)
https://drive.google.com/file/d/1_iTJcnFHebOJMuJp7mXQDeyZE_nJV5K7
в котором работает поиск, но имеется проблема со шрифтами (используются виртуальные шрифты CUTFont+1, ..., CITFont+12), вследствие чего страдает отображение текста.
Вы или кто-то до вас поиздевались над файлом и выложили тут убитую страницу №8 из него с криками "Памагите!". Самому не смешно?
В оригинальном файле достаточно произвести замену шрифтов (подобрав корректно размер и тип), и будет порядок. В отличие от вашей убитой напрочь страницы.

Всего записей: 1319 | Зарегистр. 17-01-2011 | Отправлено: 01:31 09-03-2024 | Исправлено: Jonmey, 01:34 09-03-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Jonmey
что-то с шрифтами в этом файле сильно не то. Я даже не сумел извлечь поток deflate, что ни в какие рамки не лезет. Вот бинарник шрифта (FontFile2, внутри предполагается куцый truetype), который якобы FlateDecode, однако утилитка распаковки (применяет zlib) говорит что не находит правильной последовательности байт. https://disk.yandex.ru/d/jCv2c9XvtvCm-Q
 
И самое занятное что 12й Foxit при таких проблемах прекрасно шрифты отображает, и поиск работает. Но не более: исправить ошибки ни префлайтом ни пересохранением я не сумел.
 

 
Просидел полсуток с нулевым результатом. Есть только предположение что раскодировка потока у фоксита выполняется с иными параметрами по умолчанию, чем у адоба.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 07:23 11-03-2024 | Исправлено: TelecomUral, 07:24 11-03-2024
Jonmey

Advanced Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral
fixed example
https://workupload.com/file/YFGW582TnFk

Всего записей: 1319 | Зарегистр. 17-01-2011 | Отправлено: 11:58 11-03-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
Jonmey
чем это сделано? в Свойствах непонятное ПО.

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 15:37 11-03-2024
los

Gold Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
TelecomUral

Цитата:
в Свойствах непонятное ПО.

если ''непонятное ПО" - это Infix Pro, то это достаточно известная и популярная программа.

Всего записей: 7336 | Зарегистр. 08-09-2001 | Отправлено: 16:43 11-03-2024
TelecomUral

Silver Member
Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору
los
pdfdo.com 5.5.6.0

Всего записей: 3064 | Зарегистр. 15-07-2010 | Отправлено: 16:57 11-03-2024
Открыть новую тему     Написать ответ в эту тему

Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183

Компьютерный форум Ru.Board » Компьютеры » Программы » Редактирование PDF файлов


Реклама на форуме Ru.Board.

Powered by Ikonboard "v2.1.7b" © 2000 Ikonboard.com
Modified by Ru.B0ard
© Ru.B0ard 2000-2024

BitCoin: 1NGG1chHtUvrtEqjeerQCKDMUi6S6CG4iC

Рейтинг.ru