2012-02-14 44 views

Trả lời

8

Cách tiếp cận dễ nhất là đi với mô hình bag of words. Bạn đại diện cho mỗi tài liệu như một bộ sưu tập các từ không theo thứ tự.

Bạn có thể muốn loại bỏ dấu chấm câu và bạn có thể bỏ qua trường hợp. Bạn cũng có thể muốn xóa các từ phổ biến như 'và', 'hoặc' và 'the'.

Để thích ứng này vào một vector tính năng mà bạn có thể chọn (nói) 10.000 từ đại diện từ mẫu của bạn, và có một vector nhị phân v[i,j] = 1 nếu tài liệu i chứa từ jv[i,j] = 0 khác.

2

Hãy xem MonkeyLearn, bạn có thể dễ dàng tạo các trình phân loại văn bản sử dụng học máy để học từ các mẫu văn bản (tài liệu) bạn có. Nó tự động biết được biểu diễn vector đặc trưng. Bạn cũng có thể tinh chỉnh nếu bạn muốn sử dụng n-gram, lọc hoặc lọc từ khóa.

+0

Làm cách nào để xác định số lượng biểu diễn vector tính năng, ví dụ: đào tạo sách truyện trong rnn-lstm và sau đó dự đoán câu từ đó? "Số lượng các tính năng" có phải là 1, bởi vì bạn chỉ yêu cầu mạng tìm hiểu những gì nó có thể từ một độ dài chuỗi ký tự cho mỗi bước? – naisanza

3

Để đưa ra câu trả lời thực sự tốt cho câu hỏi, bạn nên biết loại phân loại bạn quan tâm: dựa trên thể loại, tác giả, tình cảm, v.v. Ví dụ: phân loại kiểu cách, các từ hàm quan trọng , để phân loại dựa trên nội dung chúng chỉ là tiếng ồn và thường được lọc ra bằng cách sử dụng danh sách từ dừng. Nếu bạn quan tâm đến phân loại dựa trên nội dung, bạn có thể muốn sử dụng lược đồ trọng số như tần suất tài liệu/tần suất nghịch đảo, (1) để cho các từ điển hình cho tài liệu và hiếm gặp trong toàn bộ tập hợp văn bản. trọng lượng hơn. Điều này giả định một mô hình không gian vectơ của các văn bản của bạn mà là một túi đại diện từ của văn bản. (Xem Wikipedia trên Vector Space Modelltf/idf) Thông thường tf/idf sẽ mang lại kết quả tốt hơn so với lược đồ phân loại nhị phân chỉ chứa thông tin cho dù thuật ngữ có tồn tại trong tài liệu hay không.

Cách tiếp cận này được thiết lập và phổ biến như các thư viện học máy như Python cung cấp các phương pháp tiện lợi cung cấp chuyển đổi bộ sưu tập văn bản thành ma trận bằng tf/idf.


Các vấn đề liên quan