Преобразовать слово (.docx) в docbook
Мне было поручено найти способ конвертировать большое количество .файлы docx в docbook 5. В настоящее время мы открываем файл в openoffice и сохраняем в docbook. Это трудоемкая задача, но я уверен, что есть лучший путь. Затем эти файлы будут обработаны далее в нашей пользовательской схеме relax NG. Поэтому это преобразование не должно быть безупречным. Я осмотрелся и продолжу исследовать некоторые зацепки, но не нашел ничего полезного.
глядя на преобразование doc / docx в семантический HTML они предложили upCast, но это, кажется, не соответствует моим потребностям.
Я ищу что-то свободно, что я могу использовать из командной строки. В конечном счете, я хотел бы пакетно обработать наши файлы. Я включил теги linux, python и java для этих сред, которые мне наиболее удобны, но я был бы готов согнуть для правильного решения. Я пытаюсь сделать некоторые исследования, прежде чем я уйду и изобретать колесо.
3 ответов
существует несколько способов написания этого сценария, как с использованием внешних скриптов, так и скриптов в OpenOffice. См. следующие ссылки для некоторых примеры:
- http://juretta.com/log/2006/08/10/convert_microsoft_word_to_docbook_xml_using_ruby_and_openoffice/
- http://www.oooninja.com/2008/02/batch-command-line-file-conversion-with.html
- http://www.xml.com/pub/a/2006/01/11/from-microsoft-to-openoffice.html
- http://mail.python.org/pipermail/python-announce-list/2006-May/004951.html
- http://dag.wieers.com/home-made/unoconv/
некоторые из приведенных выше ссылок не используется Java или Python, но принципы все еще применяются, и скрипты обычно достаточно короткие, чтобы их можно было портировать (первый пример-в Ruby, но это мой личный фаворит из-за простоты).
вы можете запустить openoffice в режиме сервера и передать ему документы, не открывая их вручную.
одним из способов: http://code.google.com/p/bungeni-editor/wiki/RunningTheJODConverterServer
рискуя заработать значок археолога от SX, ответы должны включать ссылку на Pandoc. Это не зависит от open office.
pandoc -f docx -t docbook -o newdocbook.dbk --standalone original.docx