Используйте Scala parser combinator для анализа CSV-файлов
Я пытаюсь написать парсер CSV, используя комбинаторы парсера Scala. Грамматика основана на RFC4180. Я придумал следующий код. Он почти работает, но я не могу заставить его правильно разделить разные записи. Что я пропустил?
object CSV extends RegexParsers {
def COMMA = ","
def DQUOTE = """
def DQUOTE2 = """" ^^ { case _ => """ }
def CR = "r"
def LF = "n"
def CRLF = "rn"
def TXT = "[^",rn]".r
def file: Parser[List[List[String]]] = ((record~((CRLF~>record)*))<~(CRLF?)) ^^ {
case r~rs => r::rs
}
def record: Parser[List[String]] = (field~((COMMA~>field)*)) ^^ {
case f~fs => f::fs
}
def field: Parser[String] = escaped|nonescaped
def escaped: Parser[String] = (DQUOTE~>((TXT|COMMA|CR|LF|DQUOTE2)*)<~DQUOTE) ^^ { case ls => ls.mkString("")}
def nonescaped: Parser[String] = (TXT*) ^^ { case ls => ls.mkString("") }
def parse(s: String) = parseAll(file, s) match {
case Success(res, _) => res
case _ => List[List[String]]()
}
}
println(CSV.parse(""" "foo", "bar", 123""" + "rn" +
"hello, world, 456" + "rn" +
""" spam, 789, egg"""))
// Output: List(List(foo, bar, 123hello, world, 456spam, 789, egg))
// Expected: List(List(foo, bar, 123), List(hello, world, 456), List(spam, 789, egg))
обновление: проблема решена
RegexParsers по умолчанию игнорируют пробелы, включая пробел, вкладку, возврат каретки и разрывы строк, используя регулярное выражение [s]+
. Проблема парсера выше из-за этого невозможно разделить записи. Нам нужно отключить режим skipWhitespace. Замена определения пробела на just [ t]}
не решает проблему, потому что она будет игнорировать все пробелы в полях (таким образом, "foo bar" в CSV становится "foobar"), что нежелательно. Обновленный источник парсера таким образом
import scala.util.parsing.combinator._
// A CSV parser based on RFC4180
// http://tools.ietf.org/html/rfc4180
object CSV extends RegexParsers {
override val skipWhitespace = false // meaningful spaces in CSV
def COMMA = ","
def DQUOTE = """
def DQUOTE2 = """" ^^ { case _ => """ } // combine 2 dquotes into 1
def CRLF = "rn" | "n"
def TXT = "[^",rn]".r
def SPACES = "[ t]+".r
def file: Parser[List[List[String]]] = repsep(record, CRLF) <~ (CRLF?)
def record: Parser[List[String]] = repsep(field, COMMA)
def field: Parser[String] = escaped|nonescaped
def escaped: Parser[String] = {
((SPACES?)~>DQUOTE~>((TXT|COMMA|CRLF|DQUOTE2)*)<~DQUOTE<~(SPACES?)) ^^ {
case ls => ls.mkString("")
}
}
def nonescaped: Parser[String] = (TXT*) ^^ { case ls => ls.mkString("") }
def parse(s: String) = parseAll(file, s) match {
case Success(res, _) => res
case e => throw new Exception(e.toString)
}
}
3 ответов
то, что вы пропустили, - это пробелы. Я добавил пару бонусных улучшений.
import scala.util.parsing.combinator._
object CSV extends RegexParsers {
override protected val whiteSpace = """[ \t]""".r
def COMMA = ","
def DQUOTE = "\""
def DQUOTE2 = "\"\"" ^^ { case _ => "\"" }
def CR = "\r"
def LF = "\n"
def CRLF = "\r\n"
def TXT = "[^\",\r\n]".r
def file: Parser[List[List[String]]] = repsep(record, CRLF) <~ opt(CRLF)
def record: Parser[List[String]] = rep1sep(field, COMMA)
def field: Parser[String] = (escaped|nonescaped)
def escaped: Parser[String] = (DQUOTE~>((TXT|COMMA|CR|LF|DQUOTE2)*)<~DQUOTE) ^^ { case ls => ls.mkString("")}
def nonescaped: Parser[String] = (TXT*) ^^ { case ls => ls.mkString("") }
def parse(s: String) = parseAll(file, s) match {
case Success(res, _) => res
case _ => List[List[String]]()
}
}
с библиотекой комбинаторов синтаксического анализатора Scala из стандартной библиотеки Scala, начиная с 2.11, нет никаких оснований не использовать гораздо более эффективную библиотеку Parboiled2. Вот версия CSV-парсера в DSL Parboiled2:
/* based on comments in https://github.com/sirthias/parboiled2/issues/61 */
import org.parboiled2._
case class Parboiled2CsvParser(input: ParserInput, delimeter: String) extends Parser {
def DQUOTE = '"'
def DELIMITER_TOKEN = rule(capture(delimeter))
def DQUOTE2 = rule("\"\"" ~ push("\""))
def CRLF = rule(capture("\r\n" | "\n"))
def NON_CAPTURING_CRLF = rule("\r\n" | "\n")
val delims = s"$delimeter\r\n" + DQUOTE
def TXT = rule(capture(!anyOf(delims) ~ ANY))
val WHITESPACE = CharPredicate(" \t")
def SPACES: Rule0 = rule(oneOrMore(WHITESPACE))
def escaped = rule(optional(SPACES) ~
DQUOTE ~ (zeroOrMore(DELIMITER_TOKEN | TXT | CRLF | DQUOTE2) ~ DQUOTE ~
optional(SPACES)) ~> (_.mkString("")))
def nonEscaped = rule(zeroOrMore(TXT | capture(DQUOTE)) ~> (_.mkString("")))
def field = rule(escaped | nonEscaped)
def row: Rule1[Seq[String]] = rule(oneOrMore(field).separatedBy(delimeter))
def file = rule(zeroOrMore(row).separatedBy(NON_CAPTURING_CRLF))
def parsed() : Try[Seq[Seq[String]]] = file.run()
}
пробел по умолчанию для RegexParsers
Парсеры составляет \s+
, который включает новые строки. Так что CR
, LF
и CRLF
никогда не получите шанс быть обработан, так как он автоматически пропускается анализатором.