Есть ли парсер GEDCOM, написанный на Python? [закрытый]

GEDCOM является стандартом для обмена генеалогическими данными.

Я нашел Парсеры, написанные в

но пока ничего не написано на Python. Ближе всего я подошел к файлу libgedcom.py из проекта GRAMPS, но это настолько полно ссылок на модули GRAMPS, что не пригодится мне.

Я просто хочу простую автономную библиотеку парсера GEDCOM, написанную на Python. Существует ли это?

6 ответов


несколько лет назад я написал упрощенный GEDCOM в XML translator на Python как часть большого проекта. Я обнаружил, что работа с данными GEDCOM в формате XML была намного проще (особенно, когда следующий шаг включал XSLT).

на данный момент у меня нет кода в сети, поэтому я вставил модуль в это сообщение. Это работает для меня; никаких гарантий. Надеюсь, это поможет.

import codecs, os, re, sys
from xml.sax.saxutils import escape

fn = sys.argv[1]

ged = codecs.open(fn, encoding="cp437")
xml = codecs.open(fn+".xml", "w", "utf8")
xml.write("""<?xml version="1.0"?>\n""")
xml.write("<gedcom>")
sub = []
for s in ged:
    s = s.strip()
    m = re.match(r"(\d+) (@(\w+)@ )?(\w+)( (.*))?", s)
    if m is None:
        print "Error: unmatched line:", s
    level = int(m.group(1))
    id = m.group(3)
    tag = m.group(4)
    data = m.group(6)
    while len(sub) > level:
        xml.write("</%s>\n" % (sub[-1]))
        sub.pop()
    if level != len(sub):
        print "Error: unexpected level:", s
    sub += [tag]
    if id is not None:
        xml.write("<%s id=\"%s\">" % (tag, id))
    else:
        xml.write("<%s>" % (tag))
    if data is not None:
        m = re.match(r"@(\w+)@", data)
        if m:
            xml.write(m.group(1))
        elif tag == "NAME":
            m = re.match(r"(.*?)/(.*?)/$", data)
            if m:
                xml.write("<forename>%s</forename><surname>%s</surname>" % (escape(m.group(1).strip()), escape(m.group(2))))
            else:
                xml.write(escape(data))
        elif tag == "DATE":
            m = re.match(r"(((\d+)?\s+)?(\w+)?\s+)?(\d{3,})", data)
            if m:
                if m.group(3) is not None:
                    xml.write("<day>%s</day><month>%s</month><year>%s</year>" % (m.group(3), m.group(4), m.group(5)))
                elif m.group(4) is not None:
                    xml.write("<month>%s</month><year>%s</year>" % (m.group(4), m.group(5)))
                else:
                    xml.write("<year>%s</year>" % m.group(5))
            else:
                xml.write(escape(data))
        else:
            xml.write(escape(data))
while len(sub) > 0:
    xml.write("</%s>" % sub[-1])
    sub.pop()
xml.write("</gedcom>\n")
ged.close()
xml.close()

Я взял код из ответа mwhite, немного расширил его (хорошо, больше, чем просто немного) и разместил на github:http://github.com/dijxtra/simplepyged. Я принимаю предложения о том, что еще добавить : -)


Я знаю, что этот поток довольно старый, но я нашел его в своих поисках, а также в этом проекте https://github.com/madprime/python-gedcom/

источник скрипучий чистый и очень функциональный.


универсальный парсер GEDCOM в Python связан с http://ilab.cs.byu.edu/cs460/2006w/assignments/program1.html


можно использовать глоток инструмент для включения библиотек C через интерфейс родного языка. Вам придется совершать вызовы api C из Python, но остальная часть вашего кода может быть только Python.

может показаться немного сложным, но как только вы получите настройку, использование двух вместе не будет плохо. Могут быть некоторые причуды в зависимости от того, как была написана библиотека C, но вам придется иметь дело с некоторыми независимо от того, какой вариант вы использовали.


еще один базовый парсер для формата GEDCOM 5.5:https://github.com/rootsdev/python-gedcom-parser