Чтение sdmx-xml-файлов в фрейм данных в R
мне было интересно, удалось ли кому-нибудь прочитать файлы SDMX-XML в фрейм данных. Файл, который я хотел бы прочитать,https://www.ecb.europa.eu/stats/sdmx/icpf/1/data/pension_funds.xml (1 Мб). Я сохранил файл как " pensions_funds.xml " в pwd и попытался использовать пакет XML для его чтения:
fileName <- system.file("pensions", "pensions_funds.xml", package="XML")
parsed<-xmlTreeParse("pension_funds.xml",getDTD=F)
r<-xmlRoot(parsed)
tmp = xmlSApply(r, function(x) xmlSApply(x, xmlValue))
несколько строк выше в основном следуют примеру здесь http://www.omegahat.org/RSXML/gettingStarted.html но я думаю, что сначала нужно как-то игнорируйте заголовок (я вставил ниже первых двух страниц файла, который я пытаюсь прочитать). Поэтому я думаю, что выше может работать, но он начинается с неправильного узла для моих целей. Я хотел бы захватить obs_values, индексированные их time_period и ref_area.
первое, что нужно было бы найти правильный узел и начать там, однако я подозреваю, что я могу быть на дурацком поручении, так как у меня есть ограниченное знание форматов данных, и я не уверен, что пакет XML может быть использован для ОСДМ-XML-файлы. Умные люди, кажется, пытались сделать это http://opensdmxdevelopers.wikispaces.com/RSDMX Я не могу найти этот пакет для загрузки на свою страницу здесь https://r-forge.r-project.org/projects/rsdmx/ (Я не вижу никакой ссылки/раздела Загрузки, но, возможно, я слеп), и, похоже, это ранние этапы. Существование rsdmx предполагает использование пакета xml для чтения sdmx может быть непросто, поэтому я готов отказаться на этом этапе, если у кого-то не было успех с этим. На самом деле, я в основном заинтересован в чтении этого файла http://www.ecb.europa.eu/stats/sdmx/bsi/1/data/outstanding_amounts.xml Но это файл 10mb, поэтому я начал меньше.
edit3 попытка ответа sgibb на большой файл с использованием изменений в комментарии Миши библиотека (тегов)
url <- "http://www.ecb.europa.eu/stats/sdmx/bsi/1/data/outstanding_amounts.xml"
sdmxHandler <- function() {
## data.frame which stores results
data <- data.frame(stringsAsFactors=FALSE)
## counter to store current row
i <- 1
## temp value to store current REF_AREA
## temp value to store current REF_AREA
refArea <- NA
bsItem <- NA
bsCountSector <- NA
## handler subroutine for Obs tag
Obs <- function(name, attr) {
## found an Obs tag and now fill data.frame
data[i, "refArea"] <<- refArea
data[i, "timePeriod"] <<- as.numeric(attr["TIME_PERIOD"])
data[i, "obsValue"] <<- as.numeric(attr["OBS_VALUE"])
data[i, "bsItem"] <<- bsItem
data[i, "bsCountSector"] <<- bsCountSector
i <<- i + 1
}
## handler subroutine for Series tag
Series <- function(name, attr) {
refArea <<- attr["REF_AREA"]
bsItem <<- as.character(attr["BS_ITEM"])
bsCountSector <<- as.numeric(attr["BS_ITEM"])
}
return(list(getData=function() {return(data)},
Obs=Obs, Series=Series))
}
## run parser
df <- xmlEventParse(file(url), handlers=sdmxHandler())$getData()
Specification mandate value for attribute OBS_VALUE
attributes construct error
Couldn't find end of Start Tag Obs line 15108
Premature end of data in tag Series line 15041
Premature end of data in tag DataSet line 91
Premature end of data in tag CompactData line 2
Error: 1: Specification mandate value for attribute OBS_VALUE
2: attributes construct error
3: Couldn't find end of Start Tag Obs line 15108
4: Premature end of data in tag Series line 15041
5: Premature end of data in tag DataSet line 91
6: Premature end of data in tag CompactData line 2
In addition: There were 50 or more warnings (use warnings() to see the first 50)
edit2: ответ от sgibb выглядит идеально и отлично работает на меньшем файле. Я пытался продолжать.
url <- http://www.ecb.europa.eu/stats/sdmx/bsi/1/data/outstanding_amounts.xml
(файл 10 МБ, оригинальная ссылка исправлена), с единственной модификацией является добавление двух строк:
data[i, "bsItem"] <<- as.character(attr["BS_ITEM"])
data[i, "bsCountSector"] <<- as.numeric(attr["BS_COUNT_SECTOR"])
(это дополнительные переменные id, которые необходимы для идентификации строки в этом большем наборе данных). Он работал в течение нескольких минут, а затем закончил с этой ошибкой:
Ошибка: 1: Значение мандата спецификации для атрибута TIME_PE
2: ошибка построения атрибутов
3: не удалось найти конец строки Obs тега запуска 20743
4: преждевременный конец данных в строке 20689 серии бирки
5: преждевременное завершение данных в строке набора данных тегов 91 6: преждевременный конец данных в строке CompactData бирки 2
кроме того: было 50 или более предупреждений (используйте предупреждения (), чтобы увидеть первые 50)
основной формат данных кажется очень похожим, поэтому я подумал, что это может сработать. Основной формат файла 10mb является as ниже:
<Series FREQ="M" REF_AREA="AT" ADJUSTMENT="N" BS_REP_SECTOR="A" BS_ITEM="A20" MATURITY_ORIG="A" DATA_TYPE="1" COUNT_AREA="U2" BS_COUNT_SECTOR="0000" CURRENCY_TRANS="Z01" BS_SUFFIX="E" TIME_FORMAT="P1M" COLLECTION="E">
<Obs TIME_PERIOD="1997-09" OBS_VALUE="275.3" OBS_STATUS="A" OBS_CONF="F"/>
<Obs TIME_PERIOD="1997-10" OBS_VALUE="275.9" OBS_STATUS="A" OBS_CONF="F"/>
<Obs TIME_PERIOD="1997-11" OBS_VALUE="276.6" OBS_STATUS="A" OBS_CONF="F"/>
edit1:
нужный формат данных:
Ref_area time_period obs_value
At 2006 118
At 2007 119
…
Be 2006 101
…
вот первый бит данных.
</Header>
DataSet xsi:schemaLocation="https://www.ecb.europa.eu/vocabulary/stats/icpf/1 https://www.ecb.europa.eu/stats/sdmx/icpf/1/structure/2011-08-11/sdmx-compact.xsd" xmlns="https://www.ecb.europa.eu/vocabulary/stats/icpf/1">
<Group DECIMALS="0" TITLE_COMPL="Austria, reporting institutional sector Insurance corporations and pension funds - Closing balance sheet - All financial assets and liabilities - counterpart area World (all entities), counterpart institutional sector Total economy including Rest of the World (all sectors) - Credit (resources/liabilities) - Non-consolidated, Current prices - Euro, Neither seasonally nor working day adjusted - ESA95 TP table Not applicable" UNIT_MULT="9" UNIT="EUR" ESA95TP_SUFFIX="Z" ESA95TP_DENOM="E" ESA95TP_CONS="N" ESA95TP_DC_AL="2" ESA95TP_CPSECTOR="S" ESA95TP_CPAREA="A1" ESA95TP_SECTOR="S125" ESA95TP_ASSET="F" ESA95TP_TRANS="LE" ESA95TP_PRICE="V" ADJUSTMENT="N" REF_AREA="AT"/><Series ESA95TP_SUFFIX="Z" ESA95TP_DENOM="E" ESA95TP_CONS="N" ESA95TP_DC_AL="2" ESA95TP_CPSECTOR="S" ESA95TP_CPAREA="A1" ESA95TP_SECTOR="S125" ESA95TP_ASSET="F" ESA95TP_TRANS="LE" ESA95TP_PRICE="V" ADJUSTMENT="N" REF_AREA="AT" COLLECTION="E" TIME_FORMAT="P1Y" FREQ="A"><Obs OBS_CONF="F" OBS_STATUS="E" OBS_VALUE="112" TIME_PERIOD="2008"/><Obs OBS_CONF="F" OBS_STATUS="E" OBS_VALUE="119" TIME_PERIOD="2009"/><Obs OBS_CONF="F" OBS_STATUS="E" OBS_VALUE="125" TIME_PERIOD="2010"/><Obs OBS_CONF="F" OBS_STATUS="E" OBS_VALUE="127" TIME_PERIOD="2011"/></Series><Group D
3 ответов
RSDMX кажется, находится в раннем состоянии развития. IMHO пока нет пакета. Но вы можете легко реализовать его самостоятельно, используя XML
пакета. Я бы предложил использовать xmlEventParse
(см. ?xmlEventParse
подробнее):
EDIT: адаптировать пример к измененным требованиям outstanding_amounts.в XML
EDIT2: добавить download.file
library("XML")
#url <- "http://www.ecb.europa.eu/stats/sdmx/icpf/1/data/pension_funds.xml"
url <- "http://www.ecb.europa.eu/stats/sdmx/bsi/1/data/outstanding_amounts.xml"
## download xml file to avoid download errors disturbing xmlEventParse
tmp <- tempfile()
download.file(url, tmp)
sdmxHandler <- function() {
## data.frame which stores results
data <- data.frame(stringsAsFactors=FALSE)
## counter to store current row
i <- 1
## temp value to store current REF_AREA, BS_ITEM and BS_COUNT_SECTOR
refArea <- NA
bsItem <- NA
bsCountSector <- NA
## handler subroutine for Obs tag
Obs <- function(name, attr) {
## found an Obs tag and now fill data.frame
data[i, "refArea"] <<- refArea
data[i, "bsItem"] <<- bsItem
data[i, "bsCountSector"] <<- bsCountSector
data[i, "timePeriod"] <<- as.Date(paste(attr["TIME_PERIOD"], "-01", sep=""), format="%Y-%m-%d")
data[i, "obsValue"] <<- as.double(attr["OBS_VALUE"])
## update current row
i <<- i + 1
}
## handler subroutine for Series tag
Series <- function(name, attr) {
refArea <<- attr["REF_AREA"]
bsItem <<- attr["BS_ITEM"]
bsCountSector <<- as.numeric(attr["BS_COUNT_SECTOR"])
}
return(list(getData=function() {return(data)},
Obs=Obs, Series=Series))
}
## run parser
df <- xmlEventParse(tmp, handlers=sdmxHandler())$getData()
head(df)
# refArea bsItem bsCountSector timePeriod obsValue
#1 DE A20 2210 12053 39.6
#2 DE A20 2210 12084 46.1
#3 DE A20 2210 12112 50.2
#4 DE A20 2210 12143 52.0
#5 DE A20 2210 12173 52.3
#6 DE A20 2210 12204 47.3
пакета rsdmx позволяет читать файлы SDMX-ML и принуждать их как data.frame
. Теперь он размещен на Github, и в настоящее время доступен в CRAN, но в случае, если вы можете легко установить его из GitHub со следующим:
require("devtools")
install_github("rsdmx", "opensdmx")
применяя к вашим данным, Вы можете сделать следующее:
sdmx <- readSDMX("http://www.ecb.europa.eu/stats/sdmx/bsi/1/data/outstanding_amounts.xml")
df <- as.data.frame(sdmx)
дополнительные примеры приведены в rsdmx wiki
обратите внимание, что его функциональные возможности в настоящее время загружают объект xml в R, как часть слота SDMX
R объекты, созданные rsdmx. В будущем мы хотели бы исследовать, как rsdmx может использовать xmlEventParse
(как предложено выше @sgibb) для чтения очень больших наборов данных.
library(XML)
xmlparsed <- xmlParse(file(url))
## obtain dataset node::
series_data <- getNodeSet(xmlparsed, "//Series")
if(length(series_data)==0){
datasetnode <- xmlChildren( xmlChildren(xmlparsed)[[1]])[[2]]
series_data<-xmlChildren(datasetnode)[ names(xmlChildren(datasetnode))=="Series"]
}
## prepare dataset
dataset.frame <- data.frame(matrix(ncol=3))
colnames(dataset.frame) <- c('REF_AREA', 'TIME_PERIOD', 'OBS_VALUE')
## loop over data
counter=1
for (i in 1: length(series_data)){
if('Obs'%in%names(xmlChildren(series_data[[i]])) ){ ## To ignore empty //Series nodes
for (j in 1: length(xmlChildren(series_data[[i]]))){
dataset.frame[counter,1] <- xmlAttrs(series_data[[i]])['REF_AREA']
dataset.frame[counter,2] <- xmlAttrs(series_data[[i]][[j]])['TIME_PERIOD']
dataset.frame[counter,3] <- xmlAttrs(series_data[[i]][[j]])['OBS_VALUE']
counter=counter+1
}
}
}
head(dataset.frame,5)