2012-10-22 27 views
8

Trong ánh sáng của một dự án tôi đã chơi với Python NLTK và phân loại tài liệu và trình phân loại Naive Bayes. Theo tôi hiểu từ tài liệu, điều này hoạt động rất tốt nếu các tài liệu khác nhau của bạn được gắn thẻ bằng pos hoặc neg dưới dạng nhãn (hoặc nhiều hơn 2 nhãn)NLTK: Phân loại tài liệu với điểm số thay vì nhãn

Tài liệu tôi đang làm việc đã được phân loại có nhãn, nhưng chúng có điểm số, một điểm nổi giữa 0 và 5.

Điều tôi muốn làm là tạo một trình phân loại, như ví dụ phim trong tài liệu, nhưng điều đó sẽ dự đoán số điểm của một phần văn bản, thay vì nhãn. Tôi tin rằng điều này được đề cập trong tài liệu nhưng không bao giờ được khám phá thêm dưới dạng 'xác suất của các đối tượng số'

Tôi không phải là chuyên gia ngôn ngữ hay chuyên gia thống kê nên nếu ai đó có ví dụ về điều này, tôi sẽ biết ơn nhất nếu bạn chia sẻ điều này với tôi. Cảm ơn!

+0

Không quen thuộc với NLTK, nhưng nhãn trong bộ phân loại vịnh ngây thơ có liên quan trực tiếp đến xác suất. Vì vậy, ở đâu đó trong mã NLTK, xác suất được tính toán và dựa trên xác suất đó là trên hoặc dưới giá trị ngưỡng, nhãn được áp dụng. –

Trả lời

0

Đây là một câu trả lời rất muộn, nhưng có lẽ nó sẽ giúp một ai đó.

Điều bạn đang hỏi là hồi quy. Về câu trả lời của Jacob, hồi quy tuyến tính chỉ là một cách để làm điều đó. Tuy nhiên, tôi đồng ý với đề nghị của ông về scikit-learn.

Các vấn đề liên quan