Преобразовать слово (.docx) в docbook

Мне было поручено найти способ конвертировать большое количество .файлы docx в docbook 5. В настоящее время мы открываем файл в openoffice и сохраняем в docbook. Это трудоемкая задача, но я уверен, что есть лучший путь. Затем эти файлы будут обработаны далее в нашей пользовательской схеме relax NG. Поэтому это преобразование не должно быть безупречным. Я осмотрелся и продолжу исследовать некоторые зацепки, но не нашел ничего полезного.

глядя на преобразование doc / docx в семантический HTML они предложили upCast, но это, кажется, не соответствует моим потребностям.

Я ищу что-то свободно, что я могу использовать из командной строки. В конечном счете, я хотел бы пакетно обработать наши файлы. Я включил теги linux, python и java для этих сред, которые мне наиболее удобны, но я был бы готов согнуть для правильного решения. Я пытаюсь сделать некоторые исследования, прежде чем я уйду и изобретать колесо.

3 ответов


существует несколько способов написания этого сценария, как с использованием внешних скриптов, так и скриптов в OpenOffice. См. следующие ссылки для некоторых примеры:

некоторые из приведенных выше ссылок не используется Java или Python, но принципы все еще применяются, и скрипты обычно достаточно короткие, чтобы их можно было портировать (первый пример-в Ruby, но это мой личный фаворит из-за простоты).


вы можете запустить openoffice в режиме сервера и передать ему документы, не открывая их вручную.

одним из способов: http://code.google.com/p/bungeni-editor/wiki/RunningTheJODConverterServer


рискуя заработать значок археолога от SX, ответы должны включать ссылку на Pandoc. Это не зависит от open office.

pandoc -f docx -t docbook -o newdocbook.dbk --standalone original.docx