Phân loại văn bản trong python - (NLTK Sentence based)

Tôi cần phải phân loại văn bản và tôi đang sử dụng mô-đun python Text blob để đạt được nó. Tôi có thể sử dụng cây phân loại Naive Bayes/Decision. Tôi lo ngại về các điểm được đề cập dưới đây.Phân loại văn bản trong python - (NLTK Sentence based)

1) Tôi cần phải phân loại câu làm đối số/Không phải là đối số. Tôi đang sử dụng hai bộ phân loại và đào tạo mô hình bằng cách sử dụng các tập dữ liệu apt. Câu hỏi của tôi là tất cả về tôi cần đào tạo mô hình với chỉ từ khóa? hoặc tôi có thể đào tạo tập dữ liệu với tất cả các đối số có thể và không đối số câu mẫu? Mà sẽ là cách tiếp cận tốt nhất về độ chính xác phân loại văn bản và thời gian để lấy?

2) Vì phân loại sẽ là đối số/không phải là đối số, trình phân loại nào sẽ tìm nạp kết quả chính xác? Nó là Naive Bayes/cây quyết định/vịnh Naive tích cực?

Xin cảm ơn trước.

Nguồn

2014-04-20 sreram

Lý tưởng nhất, it is said that the more you train your data, the 'better' your results nhưng nó thực sự phụ thuộc sau khi bạn đã thử nghiệm và so sánh nó với kết quả thực tế bạn đã chuẩn bị.

Vì vậy, để trả lời câu hỏi của bạn, hãy đào tạo mô hình bằng từ khóa có thể cung cấp cho bạn kết quả quá rộng có thể không phải là đối số. Nhưng thực sự, bạn phải so sánh nó với thứ gì đó, vì vậy tôi khuyên bạn cũng nên đào tạo mô hình của mình với một số cấu trúc câu mà các đối số có vẻ tuân theo (một dạng nào đó), nó có thể loại bỏ những đối số không phải là đối số. Một lần nữa, làm điều này và sau đó kiểm tra nó để xem nếu bạn có được độ chính xác cao hơn so với mô hình trước đó.

Để trả lời câu hỏi tiếp theo của bạn: Đó sẽ là phương pháp tốt nhất về độ chính xác và thời gian để phân loại văn bản? Nó thực sự phụ thuộc vào dữ liệu bạn sử dụng, tôi thực sự không thể trả lời câu hỏi này bởi vì bạn phải thực hiện xác thực chéo để xem mô hình của bạn có đạt được độ chính xác cao hay không. Rõ ràng, bạn càng tìm kiếm nhiều tính năng hơn, hiệu suất của thuật toán học tập càng kém. Và nếu bạn đang xử lý gigabyte văn bản để phân tích, tôi khuyên bạn nên sử dụng Mapreduce để thực hiện công việc này.

Bạn có thể muốn xem SVM làm mô hình học tập của mình, kiểm tra với mô hình học tập (vịnh ngây thơ, vịnh ngây thơ tích cực và cây quyết định) và xem cái nào hoạt động tốt hơn.

Hy vọng điều này sẽ hữu ích.

Nguồn

2015-04-18 14:03:36 macmania314

Phân loại văn bản trong python - (NLTK Sentence based)

Trả lời

Các vấn đề liên quan