Tôi đang cố gắng để làm một số mô hình chủ đề nhưng muốn sử dụng cụm từ nơi chúng tồn tại chứ không phải là những từ đơn lẻ tứcTopic mô hình trong các cụm từ R sử dụng chứ không phải là những từ đơn lẻ
library(topicmodels)
library(tm)
my.docs = c('the sky is blue, hot sun', 'flowers,hot sun', 'black cats, bees, rats and mice')
my.corpus = Corpus(VectorSource(my.docs))
my.dtm = DocumentTermMatrix(my.corpus)
inspect(my.dtm)
Khi tôi kiểm tra dtm của tôi nó chia tách tất cả các từ lên, nhưng tôi muốn tất cả các cụm từ lại với nhau tức là cần có một cột cho mỗi: bầu trời là màu xanh nóng mặt trời hoa mèo đen ong chuột và chuột
thế nào làm cho Ma trận Thuật ngữ Tài liệu nhận ra các cụm từ và từ? họ là dấu phẩy tách
Các giải pháp cần phải được hiệu quả như tôi muốn chạy nó trên rất nhiều dữ liệu
ngram hoạt động tốt nếu tất cả cụm từ của bạn có cùng số từ (có vẻ như không chắc), nếu không bạn phải tự tạo dtm mà không sử dụng gói tm. – Ben
OK - mọi mẹo tạo DTM của riêng tôi? Câu trả lời của – shecode
@ lawyeR dưới đây cho bạn biết cách thực hiện. – Ben