Trong ánh sáng của một dự án tôi đã chơi với Python NLTK và phân loại tài liệu và trình phân loại Naive Bayes. Theo tôi hiểu từ tài liệu, điều này hoạt động rất tốt nếu các tài liệu khác nhau của bạn được gắn thẻ bằng pos hoặc neg dưới dạng nhãn (hoặc nhiều hơn 2 nhãn)NLTK: Phân loại tài liệu với điểm số thay vì nhãn
Tài liệu tôi đang làm việc đã được phân loại có nhãn, nhưng chúng có điểm số, một điểm nổi giữa 0 và 5.
Điều tôi muốn làm là tạo một trình phân loại, như ví dụ phim trong tài liệu, nhưng điều đó sẽ dự đoán số điểm của một phần văn bản, thay vì nhãn. Tôi tin rằng điều này được đề cập trong tài liệu nhưng không bao giờ được khám phá thêm dưới dạng 'xác suất của các đối tượng số'
Tôi không phải là chuyên gia ngôn ngữ hay chuyên gia thống kê nên nếu ai đó có ví dụ về điều này, tôi sẽ biết ơn nhất nếu bạn chia sẻ điều này với tôi. Cảm ơn!
Không quen thuộc với NLTK, nhưng nhãn trong bộ phân loại vịnh ngây thơ có liên quan trực tiếp đến xác suất. Vì vậy, ở đâu đó trong mã NLTK, xác suất được tính toán và dựa trên xác suất đó là trên hoặc dưới giá trị ngưỡng, nhãn được áp dụng. –