Tôi đang lập kế hoạch một ứng dụng mà sẽ làm cho cụm tin nhắn ngắn/tweets dựa trên các chủ đề. Các số chủ đề sẽ được giới hạn như thể thao [NBA, NFL, Cricket, Bóng đá], Giải trí [phim ảnh, âm nhạc] và vân vân ...Làm thế nào tôi có thể nhóm tin nhắn ngắn [Tweets] dựa trên chủ đề? [Chủ đề Dựa Clustering]
tôi có thể nghĩ đến hai cách tiếp cận này
- Hỏi người dùng gắn thẻ các câu hỏi như Stackoverflow. Người dùng có thể chọn thẻ từ danh sách thẻ được xác định trước. Sau đó, ở phía máy chủ, tôi sẽ nhóm chúng dựa trên các thẻ. Ưu điểm: - Thiết kế đơn giản. Ít phức tạp hơn trong mã. Nhược điểm: - Các lựa chọn cho người dùng sẽ bị hạn chế. Cụm sẽ không động. Nếu một sự kiện mới xảy ra, các thẻ được xác định trước sẽ bỏ lỡ nó.
- Nhận tin nhắn, xóa các từ dừng [được xác định trước trong từ điển], áp dụng một số thuật toán phân cụm trên thông báo gốc để tạo cụm và tùy thuộc vào mức độ phổ biến của cụm hiển thị. Cụm sẽ được hiển thị cho đến khi nó vẫn phổ biến [nhiều tin nhắn/phút]. Các tin nhắn mới sẽ được tách ra và gán cho các cụm tương ứng. Ưu điểm: - Phân cụm động dựa trên mức độ phổ biến của sự kiện/tai nạn. Nhược điểm: - Tăng độ phức tạp. Cần thêm tài nguyên máy chủ.
Tôi muốn biết liệu có bất kỳ phương pháp tiếp cận nào khác cho vấn đề này hay không. Hoặc có cách nào để cải thiện các phương pháp được đề cập ở trên không?
Cũng đề xuất một số thuật toán phân cụm tốt.Tôi nghĩ thuật toán "K-Clustering gần nhất" phù hợp với tình huống này.
cảm ơn trả lời ... Thực ra tôi muốn giữ nó như đơn giản vì nó có thể nhận được cho người dùng. Tôi nghĩ rằng nó sẽ được tốt đẹp nếu người dùng chỉ có thể nhập một số tin nhắn và máy chủ sẽ tìm ra nơi để đặt nó. Mặc dù đặt nhiều thông minh vào máy chủ sẽ khó khăn. – Jagira
Bạn không phải cung cấp một cách để thực hiện đào tạo liên tục bộ lọc; mà chỉ làm cho bộ lọc tốt hơn. Nếu bạn có một kho văn bản tốt, phân loại phải được chấp nhận mà không cần điều chỉnh liên tục. –