Tôi có một kho lưu trữ được gắn thẻ của con người với hơn 5000 tài liệu được lập chỉ mục theo chủ đề trong XML. Chúng có kích thước khác nhau từ vài trăm kilobyte đến vài trăm megabyte. Là bài viết ngắn cho bản thảo. Tất cả chúng đều được lập chỉ mục sâu như cấp độ đoạn văn. Tôi may mắn có một kho văn bản như vậy, và tôi đang cố gắng dạy cho mình một số khái niệm NLP. Phải thừa nhận rằng, tôi chỉ mới bắt đầu. Vì vậy, đến nay chỉ đọc sách NLTK miễn phí, streamhacker, và sách dạy nấu ăn NLTK (?) NLTK. Tôi thích thử nghiệm với một số ý tưởng.NLTK/NLP buliding một phân loại chủ đề nhiều đến nhiều/nhiều nhãn
Điều đó đã được đề xuất với tôi, có lẽ, tôi có thể lấy bi-gam và sử dụng phân loại Bay ngây thơ để gắn thẻ các tài liệu mới. Tôi cảm thấy như thể đây là cách tiếp cận sai lầm. một Naive Bayes thành thạo một loại mối quan hệ đúng/sai, nhưng để sử dụng nó trên bộ thẻ phân cấp của tôi, tôi sẽ cần phải xây dựng một trình phân loại mới cho mỗi thẻ. Gần 1000 người trong số họ. Tôi có bộ nhớ và sức mạnh xử lý để thực hiện một nhiệm vụ như vậy, nhưng tôi hoài nghi về kết quả. Tuy nhiên, tôi sẽ thử phương pháp này trước, để xoa dịu yêu cầu của một ai đó. Tôi có thể sẽ thực hiện điều này trong một hoặc hai ngày tới, nhưng tôi dự đoán độ chính xác sẽ thấp.
Vì vậy, câu hỏi của tôi hơi mở kết thúc. Laregly bởi vì bản chất của kỷ luật và sự không đồng tình chung với dữ liệu của tôi có thể sẽ khó đưa ra câu trả lời chính xác.
Loại phân loại nào sẽ phù hợp cho tác vụ này. Tôi sai có thể một Bayes được sử dụng cho nhiều hơn một loại hoạt động đúng/sai.
tôi nên theo đuổi tính năng trích xuất nào cho một tác vụ như vậy. Tôi không mong đợi nhiều với các bigram.
Mỗi tài liệu cũng chứa một số thông tin citational bao gồm, tác giả/s, một tác giả giới tính của m, f, trộn (m & f), và khác (gov't inst et al.), Loại tài liệu, ngày xuất bản (từ 16 đến hiện tại), nhà phân tích con người và một vài yếu tố chung khác. Tôi cũng đánh giá cao một số nhiệm vụ mô tả hữu ích để giúp điều tra dữ liệu này tốt hơn cho xu hướng giới tính, phân tích phân tích, v.v. Nhưng nhận ra rằng có một chút vượt quá phạm vi của câu hỏi này.
Sẽ thật thú vị khi xem Khoảng cách nén bình thường giữa các tài liệu trong tập tương quan của bạn có tương quan với các thẻ không. –