Редактирование PDF файлов - [175] :: Программы

jourmager

Цитата:

ОК. Задача ясна.
Не ясно другое - какие именно у вас трудности извлечь текстовый слой из pdf для системы автоматического перевода?
Извлекать текстовый слой может практически любой pdf-просмотрщик или редактор.

Сложность в том, чтобы получить качественный текст. Для Finereader я разработал свой алгоритм, но он трудоёмкий потому, что выделение не просто осществляю руками, но ещё и учитываю блоки примечаний так, чтобы они шли рядом с точкой, которая на них ссылается. В этом сценарии получается docx в режиме (сохранить форматированный текст), в котором весь текст идёт последовательно, а картинки не разбивают абзацы на куски.

Какой именно просмотрщик извлекает текст? Я не знаю ни одного.
Полноценные продукты это делают и у меня их коллекция - все основные крупные продукты в разных версиях. Однако, в режимах без OCR на одних и тех же документах они лажают, падают и прочее. Процесс занимает много времени и заканчивается с непредсказуемым результатом. Яркий пример - официальная документация для DaVinci Resolve 18.5.
Готов выложить её для экспериментов желающих проверить функционал имеющихся в доступе программ.

Цитата:

Вам НЕ предлагали делать текстовый слой документам, в которых он уже есть.
Вам предложили попробовать программу ABBYY FineReader.
У которой для работы с pdf в настройках OCR есть опция PDF recognition mode -> Use only text from PDF. Т.е. повторного распознавания не будет, а будет использован текстовый слой.

Сколько именно текстов вы экспортировали из FR таким образом? 10? 100?
Я только что проверил, версия 15.0.113.3886, в настойках стоит использовать только слой из PDF. Взял два документа, один скан с архив.орг, другой - изначально pdf, в обоих текстах показывается в Foxit Reader по ctrl-6 текстовый слой. Однако, FR при попытке сохранить несколько страниц в docx говорит, что страницы не распознаны. Возможно, я не ударил вовремя в бубен.

Отдельного внимания заслуживает форматирование, что значит "кривовато"? Зачем вместо полноценного текста его кривая копия? Предлагаете её переводить?

Цитата:

При существующем технологическом уровне систем автоматического перевода такие переводы будут низкого качества. Хотя, надо признать, автоматический перевод (я имею в виду на русский язык) может быть лучше сделанного современным человеком переводчиком.

Обсуждаем ли мы здесь качество перевода и его критерии? В параллельной теме http://forum.ru-board.com/topic.cgi?forum=35&topic=45670&start=80#18 я высказался по этому поводу.

Цитата:

А в чём проблема? Причём тут вообще Флибуста и Либрусек? Начните для начала с ру-борда - есть специальные темы для бесплатной раздачи книг. Если нет подходящей по тематике темы, то создайте свою. Сразу оцените, насколько ваши книги востребованы. А если хотите зарабатывать на скачивании ваших книг с платных файлообменников - то есть и такие сайты.

Проблем нет, есть задачи. Смысл того, что я делаю каждый день на протяжении более чем 12 лет в том, что книги имеют связь одна с другой. Каждая отдельная книга особой ценности не имеет, но связанная логика, которую они несут, не имеет аналогов.
С недавно обнаруженной библиотеки анны я скачал уже сотни книг и научных документов. Ранее я для особо важных для меня на тот момент книг их скриншотил с архива.орг, но в библиотеке анны есть почти всё.
Помните Высоцкого? "Удивительное рядом, но оно запрещено!" И дальше будет хуже...
Из 600 терабайт книг, которые есть у Анны, ценность для selFSearch имеет... ну, скажем, 10 Гигабайт. Многие книги или научные документы удалось найти только там, хотя многие доступны где-то ещё.
Смысл в связанности.
Наиболее это заметно по современной физике и физиологии человека.
Масонские академии наук(а они все таковые) и их полицейский отдел "По борьбе с лженаукой" совместно с ФРС уже сотни лет создают знания, предназначенные для искажения истины.
Но если взять несколько настоящих авторов вроде Акимова и Ацюковского, то всед за ними вытягиваются знания, за которыми стоят огромные возможности торсионики, двигатели с КПД в сотни процентов, преобразователи эфира, методы развития биолокационных способностей в каждом и т.п. Когда автор книги по биоэнергетике ссылается на работы Шипова с Акимовым - это великий приплод.
Чтобы увидеть серьёзную работу ботов по борьбе с Истиной, почитайте отзывы на рутрекере в раздачах Акимова, Шипова, Ацюковского, Дайненко.
Продолжая тему биолокации, книги Пучко есть в Интернете, но без знаний из Лекций Салля и других перечисленных авторов мне с физмат школой и прочим, было смешно этим заниматься, теперь же я чувствую себя обманутым, ибо 239 и её крутые преподаватели оказались рабами 5-й колонны, вдолбив в меня ложные определения фальшивой теории относительности и ангажированной науки, сформированной по указанию ротшильдов для того, чтобы утопить успехи Теслы и эфирной физики.
К эфирной физике прилагаются и остальные дисциплины такие как биофизика, биохимия, лингвистико-волновая генетика (вместо ложной обычной генетики) и квантовая модель воды, являющейся базой настоящей всей современной науки. Но большинство людей понятия не имеет о том, что в науке давно происходит революция, переворачивающая образ жизни тех, кто соприкасается с тем, как на самом деле устроен мир.
Подлинная наука создаёт целостное знание, тогда как задача жрецов, порабощающих планету - расщепление знания и разделение людей. Сюда же и настоящая холистическая медицина вместо рокфеллероской фармакологической аллопатии...
А в либрусеке детективы есть, а науки и дисциплин, связанных с человеком и выживанием нет. И это не случайно!
Помимо перечисленных стоит для общего ознакомления рекомендую посмотреть Жигалова "Уничтожение торсионных исследований".

Цитата:

Готовых может и много, но у каждого свои интересы, и они могут не совпадать с вашими.

Прошу меня простить, если я похож на чайника, таковым не являюсь, 2.5 высших образования и статус сертифицированного тренера Microsoft - тяжёлый груз, от которого теперь пытаюсь избавиться...

Модерирует : gyra, Maz
Версия для печати • Подписаться • Добавить в закладки
Страницы: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183