Відповідь

Warning: this topic has not been posted in for at least 150 days.
Unless you're sure you want to reply, please consider starting a new topic.
Ім'я:
   
Email:
Тема:
Іконка повідомлення:
Жирний Курсив Підкреслений Закреслений | Вирівняний текст Вирівняти ліворуч Центрувати Вирівняти праворуч
Вставити зображення Гіперлінк Email Вставити посилання на FTP | З обрамленням З тінню Біжучий рядок | Надрядковий Підрядковий Телетайп | Вставити таблицю Код Цитата Insert Spoiler | Insert Unordered List Insert Ordered List Горизонтальна лінія
Smiley Wink Grin laugh Cool evil Roll Eyes Tongue Angry Лукавый Sad Shocked Хм? crazy Wall slap Смущенный Шокирован Недопонял... Сумасшедший Kiss Cry thumbsup пиво flower Study Благодарю! Жадность Сомнение Умолкаю

підказка: натисніть alt+s для відправлення або alt+p для перегляду повідомлення


Повідомлення в цій темі

Автор: rga
« : 13 Липень 2018, 13:28:28  »

Вроде бы ничего не обычного: файнридер 8/распознать все/(поисправлять ошибки - пожеланию)/сохранить страницы/ все страницы/окно - формати (текст под изображением страницы, качество - пожеланию)/ок/сохранить

По идее, файнридеру все-равно на кодировку, он же распознает растровую графику  hmmmm
У меня файнридер - 11. Попробовала, таки да, и второй том удалось удачно переформатировать, и в Ворд тоже.
Похоже, этот глюк подправили, начиная с какой-то версии.
Автор: CC19
« : 13 Липень 2018, 11:54:31  »

Это просто исходник такой или перформатировали как-то?
Исходник также с кривой кодировкой был.
Можно последовательность?
Вроде бы ничего не обычного: файнридер 8/распознать все/(поисправлять ошибки - пожеланию)/сохранить страницы/ все страницы/окно - формати (текст под изображением страницы, качество - пожеланию)/ок/сохранить

По идее, файнридеру все-равно на кодировку, он же распознает растровую графику  hmmmm
Автор: rga
« : 13 Липень 2018, 09:50:09  »

Проверяйте. http://eom.com.ua/index.php?action=downloads;sa=view;down=3624
Правда я исходник скачал раньше с другого ресурса, но вроде бы файл тот же (по размеру и кодировке)

Вах! Поиск работает. Это просто исходник такой или перформатировали как-то? Можно последовательность?
Автор: CC19
« : 12 Липень 2018, 17:00:29  »

Проверяйте. http://eom.com.ua/index.php?action=downloads;sa=view;down=3624
Правда я исходник скачал раньше с другого ресурса, но вроде бы файл тот же (по размеру и кодировке)
Автор: rga
« : 12 Липень 2018, 16:38:04  »

Ради спортивного интереса - стоит попробовать :) Выкладывайте.
Справочник Крольченко-Баратова, том 1.
Автор: CC19
« : 12 Липень 2018, 16:01:45  »

Могу выложить образец для экспериментов.
Ради спортивного интереса - стоит попробовать :) Выкладывайте.
Автор: rga
« : 12 Липень 2018, 15:40:27  »

Наверное качество очень очень плохое.
Нет, файл нормальный.
Если плохое качество, то просто много орфографических ошибок. Если проблемы с кодировкой, то распознается нормально, но поиск как не работал в *.pdf, так не работает и в *.doc.

Могу выложить образец для экспериментов. :)
Автор: CC19
« : 12 Липень 2018, 15:05:36  »

а Баратов с Крольченко - увы!
Наверное качество очень очень плохое.
Автор: rga
« : 12 Липень 2018, 13:55:42  »

Два варианта
1. Распознать в Finereader, и сохранить в PDF. Текст распознает, но буквы не красивые.
Я все распознаю в Файнридере, но проблемы это снимает не всегда.
Вот приведенный в начале норматив получился нормально, а Баратов с Крольченко - увы! :)
Автор: CC19
« : 12 Липень 2018, 13:48:38  »

Два варианта
1. Распознать в Finereader, и сохранить в PDF. Текст распознает, но буквы не красивые.
2.
Quote (selected)
2. Перенос OCR текста из FineReader в файл PDF:
- если был текстовый слой, см. п.1, если нет, открываем или создаем файл Image_layer.pdf, откуда, где и как - неважно;
- открываем Image_layer.pdf в FineReader, распознаем, подправляем, но без радикального изменения форматирования, сохраняем в PDF как "Текст под изображением страницы", сохраняя размер оригинала, под именем Image+Text_OCR.pdf;
- Открываем Image+Text_OCR.pdf в Acrobat - Preflight - Create PDF layer - Create separate layers for vector objects, text and images - сохраняем под другим именем Image+Text_OCR2.pdf - снимаем показ слоя Image, оставляя только слой Text - Flatten Layers, сохранить файл под именем Text_layer.pdf;
- Вариант А: Открываем в Acrobat файл Image_layer.pdf - Preflight - Create PDF layer - Put all image objects on layers - сохраняем под именем Image_layer2.pdf - Layers - Import as Layer... - открываем файл Text_layer.pdf - Add to existing layer - Order - Appear behind page - Flatten Layers, сохранить файл под именем Full.pdf.
- Вариант B: Одновременно открываем в Acrobat X c плагином Imposal файлы Image_layer.pdf и Text_layer.pdf, запускаем Imposal, выбираем Overlay... - Bottom file - Text_layer.pdf, Top file - Image_layer.pdf, отмечаем Use the bottom document once - Overlay.
Автор: rga
« : 12 Липень 2018, 12:32:32  »

коллеги, еще раз повторю - это не трабл, это защита документа от копирования. А распечатать документ не пробовали? когда-то давно скачал мануал к Диалюкс, попробовал распечатать - картинки распечатал нормально а вместо кирилицы получил иероглифы.
Трабл. Потому как проблемы возникают и с файлами, которые никому и в голову не пришло бы защищать.
Например отдельные файлы в Фоксит-ридере открываются как набор чистых листов, а Акробат нормально читает. То же и с печатью. Могут быть не напечатаны картинки, могут быть шрифты перекошены.
Где-то читала, что разработчики ПДФ-читалок и ПДФ-редакторов попросту не успевают отслеживать этот зоопарк средств создания файлов ПДФ. Имеется масса протоколов ПДФ. Разработчики пытаются угнаться, чтоб расширить рынок, но как-то не очень получается.
Автор: Сугор
« : 12 Липень 2018, 12:24:04  »

коллеги, еще раз повторю - это не трабл, это защита документа от копирования. А распечатать документ не пробовали? когда-то давно скачал мануал к Диалюкс, попробовал распечатать - картинки распечатал нормально а вместо кирилицы получил иероглифы.
Автор: red13
« : 12 Липень 2018, 12:16:08  »

так вот и задача как перекодировать сам пдф файл чтоб получить на вьіходе приятньій для использования норматив
вчера с помощью Ghostscript пытался решить этот вопрос, но к сожалению пока без результатов.
то что прочитал на разных форумах/ресурсах пока не помогло... причем эта проблема не только с кириллицой, так как на англоязычных ресурсах тоже дискуссии на эту тему.
Автор: IamDi
« : 12 Липень 2018, 10:50:26  »

Загружаешь файл в программу распознавания текста, обработка, сохраняешь в pdf либо doc. (2-10 минут).

не сохраняется целосность документа некоторьіе слова распознаются с ошибками, не говоря уже про картинки, в целом метод не работает так как предполагалось в теме поста.


не думаю... там все просто приводится к нормальному виду.
просто там косяк с кодировками CP1252 - CP1251

так вот и задача как перекодировать сам пдф файл чтоб получить на вьіходе приятньій для использования норматив
Автор: rga
« : 11 Липень 2018, 16:22:04  »

не думаю... там все просто приводится к нормальному виду.
просто там косяк с кодировками CP1252 - CP1251
Да там проблема с колировками. Но к нормальному виду не всегда возможно привести.
Например, в справочнике Крольченко-Баратова ни в ПДФ поиск не работает, ни в распознанном тексте. И это не единственный случай.