Alex Dragon
Full Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору Дело в том, что мне, как сейчас кажется, я про это читал задолго до выхода 14 версии, поэтому думал, что уже есть в более ранних. Цитата: pdf - это, по большому счёту, офисный формат. | По большому счёту это формат векторной графики. Более всего с ним имели и имеют дело полиграфисты. Но вот сейчас зашёл на файнридеровский сайт, краем глаза глянул рекламу — да, похоже они решили залезть на делянку Акробата, предлагая какие-то фишки редактирования pdf. Я так понял, типа если всё равно с документооборотом работаем, то логично иметь софт «всё в одном». Цитата: а и в офисах задачи распознавания (если они вообще возникают) крайне просты, там с лихвой хватает даже встроенного в МФУ OCR-функционала. | А вот не совсем. Я выше писал, что распознавание лажает даже в абсолютно идеальных условиях, когда на вход идёт не скан, а растрированный вектор — лучше условия просто невозможно представить. Представьте, что в официальных документах, которые про деньги, такая лажа пойдёт. Фигли там, пару букв в названии контрагента поменялась — а для компа это совсем другая организация и можно потом этот документ сто лет искать. И т.п. Меня лично эта фича заинтересовала с той точки зрения, чтобы посмотреть, насколько хорошо ФР сохраняет исходное форматирование такого документа в смысле логического структурирования, более всего — абзацев, при по идее гарантированной точности идентичности текста. Потому что часто какие-то книжки, статьи или документы бродят по сети только в PDF, а мне, допустим, нужен только текст, причём под себя отформатированный. Если делать голую экстракцию в Акробате — то это просто поток сознания без всякой логической разбивки, такой документ фактически перевёрстывать надо, при этом вычищая от мусора, что часто геморрно. А часто, если pdf сделан не акробатовским дистиллером или не под виндой, то там лажа с кодировками, превращающая текст в невосстановимый мусор. | Всего записей: 422 | Зарегистр. 05-01-2002 | Отправлено: 12:33 11-03-2018 | Исправлено: Alex Dragon, 12:34 11-03-2018 |
|