R stemming a string / document / corpus
Я пытаюсь сделать некоторые stemming в R, но, похоже, работает только на отдельных документах. Моя конечная цель-это матрица терминальных документов, которая показывает частоту каждого термина в документе.
вот пример:
require(RWeka)
require(tm)
require(Snowball)
worder1<- c("I am taking","these are the samples",
"He speaks differently","This is distilled","It was placed")
df1 <- data.frame(id=1:5, words=worder1)
> df1
  id                 words
1  1           I am taking
2  2 these are the samples
3  3 He speaks differently
4  4     This is distilled
5  5         It was placed
этот метод работает для стержневой части, но не для части Матрицы документа термина:
> corp1 <- Corpus(VectorSource(df1$words))
> inspect(corp1)
A corpus with 5 text documents
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
  create_date creator 
Available variables in the data frame are:
  MetaID 
[[1]]
I am taking
[[2]]
these are the samples
[[3]]
He speaks differently
[[4]]
This is distilled
[[5]]
It was placed
> corp1 <- tm_map(corp1, SnowballStemmer)
> inspect(corp1)
A corpus with 5 text documents
The metadata consists of 2 tag-value pairs and a data frame
Available tags are:
  create_date creator 
Available variables in the data frame are:
  MetaID 
[[1]]
[1] I am tak
[[2]]
[1] these are the sampl
[[3]]
[1] He speaks differ
[[4]]
[1] This is distil
[[5]]
[1] It was plac
>  class(corp1)
[1] "VCorpus" "Corpus"  "list"   
> tdm1 <- TermDocumentMatrix(corp1)
Error in UseMethod("Content", x) : 
  no applicable method for 'Content' applied to an object of class "character"
поэтому вместо этого я попытался сначала создать матрицу термина документа, но на этот раз слова не получают stemmed:
> corp1 <- Corpus(VectorSource(df1$words))
> tdm1 <- TermDocumentMatrix(corp1, control=list(stemDocument=TRUE))
>  as.matrix(tdm1)
             Docs
Terms         1 2 3 4 5
  are         0 1 0 0 0
  differently 0 0 1 0 0
  distilled   0 0 0 1 0
  placed      0 0 0 0 1
  samples     0 1 0 0 0
  speaks      0 0 1 0 0
  taking      1 0 0 0 0
  the         0 1 0 0 0
  these       0 1 0 0 0
  this        0 0 0 1 0
  was         0 0 0 0 1
здесь слова, очевидно,не связаны.
какие предложения?
4 ответов
на RTextTools пакет на CRAN позволяет вам сделать это.
library(RTextTools)
worder1<- c("I am taking","these are the samples",
"He speaks differently","This is distilled","It was placed")
df1 <- data.frame(id=1:5, words=worder1)
matrix <- create_matrix(df1, stemWords=TRUE, removeStopwords=FALSE, minWordLength=2)
colnames(matrix) # SEE THE STEMMED TERMS
возвращает DocumentTermMatrix Это можно использовать с пакетом tm. Вы можете играть с другими параметрами (например, удаление стоп-слов, изменение минимальной длины слова, использование стеммера для другого языка), чтобы получить необходимые результаты. При отображении as.matrix в примере создается следующая матрица терминов:
                         Terms
Docs                      am are differ distil he is it place sampl speak take the these this was
  1 I am taking            1   0      0      0  0  0  0     0     0     0    1   0     0    0   0
  2 these are the samples  0   1      0      0  0  0  0     0     1     0    0   1     1    0   0
  3 He speaks differently  0   0      1      0  1  0  0     0     0     1    0   0     0    0   0
  4 This is distilled      0   0      0      1  0  1  0     0     0     0    0   0     0    1   0
  5 It was placed          0   0      0      0  0  0  1     1     0     0    0   0     0    0   1
это работает в R С tm версия 0.6. У вас было несколько незначительных ошибок, которые препятствовали правильной работе, возможно, они из более старой версии tm? Во всяком случае, вот как это сделать:
require(RWeka)
require(tm)
пакет stemming не ваш Snowball но SnowballC:
require(SnowballC)
worder1<- c("I am taking","these are the samples",
            "He speaks differently","This is distilled","It was placed")
df1 <- data.frame(id=1:5, words=worder1)
corp1 <- Corpus(VectorSource(df1$words))
inspect(corp1)
изменить SnowballStemmer to stemDocument в следующей строке вот так: 
corp1 <- tm_map(corp1, stemDocument)
inspect(corp1)
слова вытекают, как ожидалось:
<<VCorpus (documents: 5, metadata (corpus/indexed): 0/0)>>
[[1]]
<<PlainTextDocument (metadata: 7)>>
I am take
[[2]]
<<PlainTextDocument (metadata: 7)>>
these are the sampl
[[3]]
<<PlainTextDocument (metadata: 7)>>
He speak differ
[[4]]
<<PlainTextDocument (metadata: 7)>>
This is distil
[[5]]
<<PlainTextDocument (metadata: 7)>>
It was place
теперь сделайте матрицу документа термина:
corp1 <- Corpus(VectorSource(df1$words))
изменить stemDocument to stemming:
tdm1 <- TermDocumentMatrix(corp1, control=list(stemming=TRUE))
as.matrix(tdm1)
и мы получаем tdm из стволовых слов, как и ожидалось:
        Docs
Terms    1 2 3 4 5
  are    0 1 0 0 0
  differ 0 0 1 0 0
  distil 0 0 0 1 0
  place  0 0 0 0 1
  sampl  0 1 0 0 0
  speak  0 0 1 0 0
  take   1 0 0 0 0
  the    0 1 0 0 0
  these  0 1 0 0 0
  this   0 0 0 1 0
  was    0 0 0 0 1
Итак, поехали. Возможно, более тщательное прочтение tm docs могли бы сэкономить немного вашего времени с этим;)
Да для стволовых слов документа в корпусе вам требуется Rweka, Snowball и .
использовать следующую инструкцию
> library (tm)
#set your directory Suppose u have set "F:/St" then next command is 
> a<-Corpus(DirSource("/st"), 
            readerControl=list(language="english")) # "/st" it is path of your directory
> a<-tm_map(a, stemDocument, language="english")
> inspect(a)
конечно, вы найдете желаемый результат.
другое решение-жесткое кодирование. Он просто разбивает тексты и стебли потом reconcentrates:
library(SnowballC)
i=1
#Snowball stemming
while(i<=nrow(veri)){
  metin=veri[i,2]
  stemmed_metin="";
  parcali=unlist(strsplit(metin,split=" ")) #split the text
  for(klm in parcali){
    stemmed_klm=wordStem(klm,language = "turkish") #stem word by word
    stemmed_metin=sprintf("%s %s",stemmed_metin,stemmed_klm) #reconcantrate
  }
  veri[i,4]=stemmed_metin #write to new column
  i=i+1
}
