АСН.1 парсер на языке C / Python
Я ищу решение для разбора asn.1 spec файлы и генерировать декодер из них.
В идеале я хотел бы работать с модулями Python, но если ничего не доступно, я бы использовал библиотеки C/C++ и взаимодействовал с Python с множеством решений.
в прошлом я использовал pyasn1 и строил все вручную, но это стало слишком громоздким.
Я также поверхностно посмотрел на libtasn1 и asn1c. В сначала у одного были проблемы с разбором даже самых простых файлов. Второй имеет хороший парсер, но генерирование кода C для декодирования кажется слишком сложным; решение хорошо работало с простыми спецификациями, но подавилось сложными.
любой другой хорошей альтернативы я пропустил?
7 ответов
я написал такой парсер несколько лет назад. Он генерирует классы python для библиотеки pyasn1. Я использовал в ericsson doc, чтобы сделать парсер для своих CDRs.
Я попробую разместить код здесь сейчас.
import sys
from pyparsing import *
OpenBracket = Regex("[({]").suppress()
CloseBracket = Regex("[)}]").suppress()
def Enclose(val):
return OpenBracket + val + CloseBracket
def SetDefType(typekw):
def f(a, b, c):
c["defType"] = typekw
return f
def NoDashes(a, b, c):
return c[0].replace("-", "_")
def DefineTypeDef(typekw, typename, typedef):
return typename.addParseAction(SetDefType(typekw)).setResultsName("definitionType") - \
Optional(Enclose(typedef).setResultsName("definition"))
SizeConstraintBodyOpt = Word(nums).setResultsName("minSize") - \
Optional(Suppress(Literal("..")) - Word(nums + "n").setResultsName("maxSize"))
SizeConstraint = Group(Keyword("SIZE").suppress() - Enclose(SizeConstraintBodyOpt)).setResultsName("sizeConstraint")
Constraints = Group(delimitedList(SizeConstraint)).setResultsName("constraints")
DefinitionBody = Forward()
TagPrefix = Enclose(Word(nums).setResultsName("tagID")) - Keyword("IMPLICIT").setResultsName("tagFormat")
OptionalSuffix = Optional(Keyword("OPTIONAL").setResultsName("isOptional"))
JunkPrefix = Optional("--F--").suppress()
AName = Word(alphanums + "-").setParseAction(NoDashes).setResultsName("name")
SingleElement = Group(JunkPrefix - AName - Optional(TagPrefix) - DefinitionBody.setResultsName("typedef") - OptionalSuffix)
NamedTypes = Dict(delimitedList(SingleElement)).setResultsName("namedTypes")
SetBody = DefineTypeDef("Set", Keyword("SET"), NamedTypes)
SequenceBody = DefineTypeDef("Sequence", Keyword("SEQUENCE"), NamedTypes)
ChoiceBody = DefineTypeDef("Choice", Keyword("CHOICE"), NamedTypes)
SetOfBody = (Keyword("SET") + Optional(SizeConstraint) + Keyword("OF")).setParseAction(SetDefType("SetOf")) + Group(DefinitionBody).setResultsName("typedef")
SequenceOfBody = (Keyword("SEQUENCE") + Optional(SizeConstraint) + Keyword("OF")).setParseAction(SetDefType("SequenceOf")) + Group(DefinitionBody).setResultsName("typedef")
CustomBody = DefineTypeDef("constructed", Word(alphanums + "-").setParseAction(NoDashes), Constraints)
NullBody = DefineTypeDef("Null", Keyword("NULL"), Constraints)
OctetStringBody = DefineTypeDef("OctetString", Regex("OCTET STRING"), Constraints)
IA5StringBody = DefineTypeDef("IA5String", Keyword("IA5STRING"), Constraints)
EnumElement = Group(Word(printables).setResultsName("name") - Enclose(Word(nums).setResultsName("value")))
NamedValues = Dict(delimitedList(EnumElement)).setResultsName("namedValues")
EnumBody = DefineTypeDef("Enum", Keyword("ENUMERATED"), NamedValues)
BitStringBody = DefineTypeDef("BitString", Keyword("BIT") + Keyword("STRING"), NamedValues)
DefinitionBody << (OctetStringBody | SetOfBody | SetBody | ChoiceBody | SequenceOfBody | SequenceBody | EnumBody | BitStringBody | IA5StringBody | NullBody | CustomBody)
Definition = AName - Literal("::=").suppress() - Optional(TagPrefix) - DefinitionBody
Definitions = Dict(ZeroOrMore(Group(Definition)))
pf = Definitions.parseFile(sys.argv[1])
TypeDeps = {}
TypeDefs = {}
def SizeConstraintHelper(size):
s2 = s1 = size.get("minSize")
s2 = size.get("maxSize", s2)
try:
return("constraint.ValueSizeConstraint(%s, %s)" % (int(s1), int(s2)))
except ValueError:
pass
ConstraintMap = {
'sizeConstraint' : SizeConstraintHelper,
}
def ConstraintHelper(c):
result = []
for key, value in c.items():
r = ConstraintMap[key](value)
if r:
result.append(r)
return result
def GenerateConstraints(c, ancestor, element, level=1):
result = ConstraintHelper(c)
if result:
return [ "subtypeSpec = %s" % " + ".join(["%s.subtypeSpec" % ancestor] + result) ]
return []
def GenerateNamedValues(definitions, ancestor, element, level=1):
result = [ "namedValues = namedval.NamedValues(" ]
for kw in definitions:
result.append(" ('%s', %s)," % (kw["name"], kw["value"]))
result.append(")")
return result
OptMap = {
False: "",
True: "Optional",
}
def GenerateNamedTypesList(definitions, element, level=1):
result = []
for val in definitions:
name = val["name"]
typename = None
isOptional = bool(val.get("isOptional"))
subtype = []
constraints = val.get("constraints")
if constraints:
cg = ConstraintHelper(constraints)
subtype.append("subtypeSpec=%s" % " + ".join(cg))
tagId = val.get("tagID")
if tagId:
subtype.append("implicitTag=tag.Tag(tag.tagClassContext, tag.tagFormatConstructed, %s)" % tagId)
if subtype:
subtype = ".subtype(%s)" % ", ".join(subtype)
else:
subtype = ""
cbody = []
if val["defType"] == "constructed":
typename = val["typedef"]
element["_d"].append(typename)
elif val["defType"] == "Null":
typename = "univ.Null"
elif val["defType"] == "SequenceOf":
typename = "univ.SequenceOf"
print val.items()
cbody = [ " componentType=%s()" % val["typedef"]["definitionType"] ]
elif val["defType"] == "Choice":
typename = "univ.Choice"
indef = val.get("definition")
if indef:
cbody = [ " %s" % x for x in GenerateClassDefinition(indef, name, typename, element) ]
construct = [ "namedtype.%sNamedType('%s', %s(" % (OptMap[isOptional], name, typename), ")%s)," % subtype ]
if not cbody:
result.append("%s%s%s" % (" " * level, construct[0], construct[1]))
else:
result.append(" %s" % construct[0])
result.extend(cbody)
result.append(" %s" % construct[1])
return result
def GenerateNamedTypes(definitions, ancestor, element, level=1):
result = [ "componentType = namedtype.NamedTypes(" ]
result.extend(GenerateNamedTypesList(definitions, element))
result.append(")")
return result
defmap = {
'constraints' : GenerateConstraints,
'namedValues' : GenerateNamedValues,
'namedTypes' : GenerateNamedTypes,
}
def GenerateClassDefinition(definition, name, ancestor, element, level=1):
result = []
for defkey, defval in definition.items():
if defval:
fn = defmap.get(defkey)
if fn:
result.extend(fn(defval, ancestor, element, level))
return [" %s" % x for x in result]
def GenerateClass(element, ancestor):
name = element["name"]
top = "class %s(%s):" % (name, ancestor)
definition = element.get("definition")
body = []
if definition:
body = GenerateClassDefinition(definition, name, ancestor, element)
else:
typedef = element.get("typedef")
if typedef:
element["_d"].append(typedef["definitionType"])
body.append(" componentType = %s()" % typedef["definitionType"])
szc = element.get('sizeConstraint')
if szc:
body.extend(GenerateConstraints({ 'sizeConstraint' : szc }, ancestor, element))
if not body:
body.append(" pass")
TypeDeps[name] = list(frozenset(element["_d"]))
return "\n".join([top] + body)
StaticMap = {
"Null" : "univ.Null",
"Enum" : "univ.Enumerated",
"OctetString" : "univ.OctetString",
"IA5String" : "char.IA5String",
"Set" : "univ.Set",
"Sequence" : "univ.Sequence",
"Choice" : "univ.Choice",
"SetOf" : "univ.SetOf",
"BitString" : "univ.BitString",
"SequenceOf" : "univ.SequenceOf",
}
def StaticConstructor(x):
x["_d"] = []
if x["defType"] == "constructed":
dt = x["definitionType"]
x["_d"].append(dt)
else:
dt = StaticMap[x["defType"]]
return GenerateClass(x, dt)
for element in pf:
TypeDefs[element["name"]] = StaticConstructor(element)
while TypeDefs:
ready = [ k for k, v in TypeDeps.items() if len(v) == 0 ]
if not ready:
x = list()
for a in TypeDeps.values():
x.extend(a)
x = frozenset(x) - frozenset(TypeDeps.keys())
print TypeDefs
raise ValueError, sorted(x)
for t in ready:
for v in TypeDeps.values():
try:
v.remove(t)
except ValueError:
pass
del TypeDeps[t]
print TypeDefs[t]
print
print
del TypeDefs[t]
это займет файл с синтаксисом, подобным этому:
CarrierInfo ::= OCTET STRING (SIZE(2..3))
ChargeAreaCode ::= OCTET STRING (SIZE(3))
ChargeInformation ::= OCTET STRING (SIZE(2..33))
ChargedParty ::= ENUMERATED
(chargingOfCallingSubscriber (0),
chargingOfCalledSubscriber (1),
noCharging (2))
ChargingOrigin ::= OCTET STRING (SIZE(1))
Counter ::= OCTET STRING (SIZE(1..4))
Date ::= OCTET STRING (SIZE(3..4))
вам нужно будет добавить эту строку поверх сгенерированного файла:
from pyasn1.type import univ, namedtype, namedval, constraint, tag, char
и назовите результат defs.py - ... Затем я прикрепил кучу prettyprinters к defs (если вы не нужно просто пропустить его)
import defs, parsers
def rplPrettyOut(self, value):
return repr(self.decval(value))
for name in dir(parsers):
if (not name.startswith("_")) and hasattr(defs, name):
target = getattr(defs, name)
target.prettyOut = rplPrettyOut
target.decval = getattr(parsers, name)
тогда, это:
def ParseBlock(self, block):
while block and block[0] != '\x00':
result, block = pyasn1.codec.ber.decoder.decode(block, asn1Spec=parserimp.defs.CallDataRecord())
yield result
если вы все еще заинтересованы, я где-то поставил код. В любом случае, я положу его куда - нибудь, но если вам интересно, просто дайте мне знать, и я укажу вам туда.
есть ANTLR ASN.1 грамматика; используя ANTLR, вы должны иметь возможность сделать ASN.1 парсер из него. Генерация кода для pyasn1 оставлена в качестве упражнения для плаката : -)
У меня есть опыт с pyasn1 и этого достаточно для анализа достаточно сложной грамматики. Грамматика выражается с помощью структуры python, поэтому нет необходимости запускать генератор кода.
Я автор LEPL, парсера, написанного на Python, и то, что вы хотите сделать, является одной из вещей в моем списке "TODO".
Я не буду делать это в ближайшее время, но вы можете рассмотреть возможность использования LEPL для создания вашего решения, потому что:
1-это чистое решение Python (которое упрощает жизнь)
2-он уже может анализировать двоичные данные, а также текст, поэтому вам нужно будет использовать только один инструмент-тот же парсер, который вы будете использовать для анализа спецификации ASN1 затем будет использоваться для анализа двоичных данных
основными недостатками являются следующие:
1-это довольно новый пакет, поэтому он может быть более баггером, чем некоторые, и сообщество поддержки не так велико
2-он ограничен Python 2.6 и выше (и двоичный парсер работает только с Python 3 и выше).
для получения дополнительной информации см. http://www.acooke.org/lepl - в частности, для двоичного синтаксического анализа см. соответствующий раздел руководства (я не могу напрямую ссылаться на это, поскольку переполнение стека, похоже, думает, что я спам)
Андрей
PS основная причина, по которой это не то, что я уже начал, заключается в том, что спецификации ASN 1 недоступны, насколько я знаю. Если у вас есть доступ к ним, и это не незаконно(!), копия была бы очень признательна (к сожалению, в настоящее время я работаю над другим проектом, поэтому это все равно займет время для реализации, но это поможет мне получить это работать раньше...).
Я сделал аналогичную работу, используя asn1c и построив вокруг него расширение Pyrex. Обернутая структура описана в В 3GPP ТС 32.401.
с Pyrex вы можете написать оболочку достаточно толстую, чтобы конвертировать между собственными типами данных Python и правильным ASN.1 представления (генераторы обертки, такие как SWIG, как правило, не выполняют сложных операций над типом). Оболочка, которую я написал, также отслеживала владение базовыми структурами данных C (например, доступ к a подструктура, объект Python был возвращен, но не было копии базовых данных, только общий доступ к ссылкам).
обертка была в конечном итоге написана полуавтоматическим способом, но потому, что это была моя единственная работа с ASN.1 я никогда не делал шаг полной автоматизации генерации кода.
вы можете попробовать использовать другие оболочки Python-C и выполнить полностью автоматическое преобразование: задание будет меньше, но тогда вы будете перемещать сложность (и повторяющуюся подверженные ошибкам операции) для пользователей структуры: по этой причине я предпочел способ Pyrex. asn1c был, безусловно, хороший выбор.
недавно я создал пакет Python под названием asn1tools который компилирует ASN.1 спецификация в объекты Python, которые могут использоваться для кодирования и декодирования сообщений.
>>> import asn1tools
>>> foo = asn1tools.compile_file('tests/files/foo.asn')
>>> encoded = foo.encode('Question', {'id': 1, 'question': 'Is 1+1=3?'})
>>> encoded
bytearray(b'0\x0e\x02\x01\x01\x16\x09Is 1+1=3?')
>>> foo.decode('Question', encoded)
{'id': 1, 'question': 'Is 1+1=3?'}