Как скопировать текст из PDF-файла без потери форматирования?
Когда я копирую текст из PDF-файла в текстовый редактор, он оказывается искаженным различными способами. Форматирование, такое как жирный шрифт и курсив, теряется; мягкие разрывы строк в абзаце текста преобразуются в жесткие разрывы строк; тире, чтобы разбить слово на две строки, сохраняются, даже если их не должно быть; и одинарные и двойные кавычки заменяются? знаки.
В идеале я хотел бы иметь возможность копировать текст из PDF и преобразовывать форматирование в HTML-коды, "умные кавычки" преобразованы в "и", а разрывы строк выполнены правильно. Есть ли какой-нибудь способ сделать это?