IamDimulya
Member | Редактировать | Профиль | Сообщение | Цитировать | Сообщить модератору jourmager Цитата: ОК. Задача ясна. Не ясно другое - какие именно у вас трудности извлечь текстовый слой из pdf для системы автоматического перевода? Извлекать текстовый слой может практически любой pdf-просмотрщик или редактор. | Сложность в том, чтобы получить качественный текст. Для Finereader я разработал свой алгоритм, но он трудоёмкий потому, что выделение не просто осществляю руками, но ещё и учитываю блоки примечаний так, чтобы они шли рядом с точкой, которая на них ссылается. В этом сценарии получается docx в режиме (сохранить форматированный текст), в котором весь текст идёт последовательно, а картинки не разбивают абзацы на куски. Какой именно просмотрщик извлекает текст? Я не знаю ни одного. Полноценные продукты это делают и у меня их коллекция - все основные крупные продукты в разных версиях. Однако, в режимах без OCR на одних и тех же документах они лажают, падают и прочее. Процесс занимает много времени и заканчивается с непредсказуемым результатом. Яркий пример - официальная документация для DaVinci Resolve 18.5. Готов выложить её для экспериментов желающих проверить функционал имеющихся в доступе программ. Цитата: Вам НЕ предлагали делать текстовый слой документам, в которых он уже есть. Вам предложили попробовать программу ABBYY FineReader. У которой для работы с pdf в настройках OCR есть опция PDF recognition mode -> Use only text from PDF. Т.е. повторного распознавания не будет, а будет использован текстовый слой. | Сколько именно текстов вы экспортировали из FR таким образом? 10? 100? Я только что проверил, версия 15.0.113.3886, в настойках стоит использовать только слой из PDF. Взял два документа, один скан с архив.орг, другой - изначально pdf, в обоих текстах показывается в Foxit Reader по ctrl-6 текстовый слой. Однако, FR при попытке сохранить несколько страниц в docx говорит, что страницы не распознаны. Возможно, я не ударил вовремя в бубен. Отдельного внимания заслуживает форматирование, что значит "кривовато"? Зачем вместо полноценного текста его кривая копия? Предлагаете её переводить? Цитата: При существующем технологическом уровне систем автоматического перевода такие переводы будут низкого качества. Хотя, надо признать, автоматический перевод (я имею в виду на русский язык) может быть лучше сделанного современным человеком переводчиком. | Обсуждаем ли мы здесь качество перевода и его критерии? В параллельной теме http://forum.ru-board.com/topic.cgi?forum=35&topic=45670&start=80#18 я высказался по этому поводу. Цитата: А в чём проблема? Причём тут вообще Флибуста и Либрусек? Начните для начала с ру-борда - есть специальные темы для бесплатной раздачи книг. Если нет подходящей по тематике темы, то создайте свою. Сразу оцените, насколько ваши книги востребованы. А если хотите зарабатывать на скачивании ваших книг с платных файлообменников - то есть и такие сайты. | Проблем нет, есть задачи. Смысл того, что я делаю каждый день на протяжении более чем 12 лет в том, что книги имеют связь одна с другой. Каждая отдельная книга особой ценности не имеет, но связанная логика, которую они несут, не имеет аналогов. С недавно обнаруженной библиотеки анны я скачал уже сотни книг и научных документов. Ранее я для особо важных для меня на тот момент книг их скриншотил с архива.орг, но в библиотеке анны есть почти всё. Помните Высоцкого? "Удивительное рядом, но оно запрещено!" И дальше будет хуже... Из 600 терабайт книг, которые есть у Анны, ценность для selFSearch имеет... ну, скажем, 10 Гигабайт. Многие книги или научные документы удалось найти только там, хотя многие доступны где-то ещё. Смысл в связанности. Наиболее это заметно по современной физике и физиологии человека. Масонские академии наук(а они все таковые) и их полицейский отдел "По борьбе с лженаукой" совместно с ФРС уже сотни лет создают знания, предназначенные для искажения истины. Но если взять несколько настоящих авторов вроде Акимова и Ацюковского, то всед за ними вытягиваются знания, за которыми стоят огромные возможности торсионики, двигатели с КПД в сотни процентов, преобразователи эфира, методы развития биолокационных способностей в каждом и т.п. Когда автор книги по биоэнергетике ссылается на работы Шипова с Акимовым - это великий приплод. Чтобы увидеть серьёзную работу ботов по борьбе с Истиной, почитайте отзывы на рутрекере в раздачах Акимова, Шипова, Ацюковского, Дайненко. Продолжая тему биолокации, книги Пучко есть в Интернете, но без знаний из Лекций Салля и других перечисленных авторов мне с физмат школой и прочим, было смешно этим заниматься, теперь же я чувствую себя обманутым, ибо 239 и её крутые преподаватели оказались рабами 5-й колонны, вдолбив в меня ложные определения фальшивой теории относительности и ангажированной науки, сформированной по указанию ротшильдов для того, чтобы утопить успехи Теслы и эфирной физики. К эфирной физике прилагаются и остальные дисциплины такие как биофизика, биохимия, лингвистико-волновая генетика (вместо ложной обычной генетики) и квантовая модель воды, являющейся базой настоящей всей современной науки. Но большинство людей понятия не имеет о том, что в науке давно происходит революция, переворачивающая образ жизни тех, кто соприкасается с тем, как на самом деле устроен мир. Подлинная наука создаёт целостное знание, тогда как задача жрецов, порабощающих планету - расщепление знания и разделение людей. Сюда же и настоящая холистическая медицина вместо рокфеллероской фармакологической аллопатии... А в либрусеке детективы есть, а науки и дисциплин, связанных с человеком и выживанием нет. И это не случайно! Помимо перечисленных стоит для общего ознакомления рекомендую посмотреть Жигалова "Уничтожение торсионных исследований". Цитата: Готовых может и много, но у каждого свои интересы, и они могут не совпадать с вашими. | Прошу меня простить, если я похож на чайника, таковым не являюсь, 2.5 высших образования и статус сертифицированного тренера Microsoft - тяжёлый груз, от которого теперь пытаюсь избавиться... |