Tôi có một tập hợp gồm 26 tệp văn bản thuần túy, mỗi tệp từ 12 - 148kb, tổng cộng 1,2Mb. Tôi đang sử dụng R trên máy tính xách tay Windows 7.Kích thước hợp lý tối đa cho stemCompletion trong tm?
Tôi đã làm tất cả các công cụ dọn dẹp thông thường (từ dừng, mật khẩu tùy chỉnh, chữ thường, số) và muốn hoàn thành phần gốc. Tôi đang sử dụng kho văn bản gốc làm từ điển như trong ví dụ. Tôi đã thử một vài vectơ đơn giản để chắc chắn rằng nó sẽ làm việc ở tất cả (với khoảng 5 thuật ngữ) và nó đã làm và rất nhanh chóng.
exchanger <- function(x) stemCompletion(x, budget.orig)
budget <- tm_map(budget, exchanger)
Nó đã hoạt động từ hôm qua lúc 4 giờ chiều! Trong R Studio theo chẩn đoán, nhật ký yêu cầu hiển thị các yêu cầu mới với các số yêu cầu khác nhau. Trình quản lý tác vụ hiển thị nó bằng cách sử dụng một số bộ nhớ, nhưng không phải là số tiền điên rồ. Tôi không muốn dừng lại bởi vì nếu gần như ở đó thì sao? Bất kỳ ý tưởng nào khác về cách kiểm tra tiến độ - đó là một kho dữ liệu dễ bay hơi, thật không may? Ý tưởng về việc phải mất bao lâu? Tôi đã nghĩ đến việc sử dụng vector tên dtm làm từ điển, cắt bỏ ở mức thường xuyên nhất (hoặc tf-idf cao), nhưng tôi không muốn giết quá trình này.
Đây là một cửa sổ thông thường 7 máy tính xách tay với nhiều thứ khác đang chạy.
Tập tin này có quá lớn đối với stemCompletion không? Ngắn của di chuyển đến Python, là có một cách tốt hơn để làm stemCompletion hoặc lemmatize phó gốc - tìm kiếm web của tôi đã không mang lại bất kỳ câu trả lời.
cảm ơn vì câu trả lời này - không thoải mái khi làm rối tung nguồn ... nhưng tôi có thể đặt các lệnh này trong một tập lệnh trong cửa sổ tập lệnh của RStudio không? Tôi đoán chỉ khi tôi đặt toàn bộ nguồn vào, về cơ bản giống như chỉnh sửa nguồn và lưu? – ChristinaP
Bạn hoàn toàn đúng. Sao chép toàn bộ chức năng ra khỏi nguồn vào một tập lệnh riêng và sau đó thực hiện các chỉnh sửa của bạn. Mỗi khi bạn cần sử dụng nó, tải gói, sau đó tải chức năng tùy chỉnh của bạn để thay thế những gì đã được tải từ gói. – SchaunW