Để đưa ra câu trả lời thực sự tốt cho câu hỏi, bạn nên biết loại phân loại bạn quan tâm: dựa trên thể loại, tác giả, tình cảm, v.v. Ví dụ: phân loại kiểu cách, các từ hàm quan trọng , để phân loại dựa trên nội dung chúng chỉ là tiếng ồn và thường được lọc ra bằng cách sử dụng danh sách từ dừng. Nếu bạn quan tâm đến phân loại dựa trên nội dung, bạn có thể muốn sử dụng lược đồ trọng số như tần suất tài liệu/tần suất nghịch đảo, (1) để cho các từ điển hình cho tài liệu và hiếm gặp trong toàn bộ tập hợp văn bản. trọng lượng hơn. Điều này giả định một mô hình không gian vectơ của các văn bản của bạn mà là một túi đại diện từ của văn bản. (Xem Wikipedia trên Vector Space Modell và tf/idf) Thông thường tf/idf sẽ mang lại kết quả tốt hơn so với lược đồ phân loại nhị phân chỉ chứa thông tin cho dù thuật ngữ có tồn tại trong tài liệu hay không.
Cách tiếp cận này được thiết lập và phổ biến như các thư viện học máy như Python cung cấp các phương pháp tiện lợi cung cấp chuyển đổi bộ sưu tập văn bản thành ma trận bằng tf/idf.
Nguồn
2015-03-11 04:53:44
Làm cách nào để xác định số lượng biểu diễn vector tính năng, ví dụ: đào tạo sách truyện trong rnn-lstm và sau đó dự đoán câu từ đó? "Số lượng các tính năng" có phải là 1, bởi vì bạn chỉ yêu cầu mạng tìm hiểu những gì nó có thể từ một độ dài chuỗi ký tự cho mỗi bước? – naisanza