2011-10-12 33 views
8

Tôi có một kho lưu trữ được gắn thẻ của con người với hơn 5000 tài liệu được lập chỉ mục theo chủ đề trong XML. Chúng có kích thước khác nhau từ vài trăm kilobyte đến vài trăm megabyte. Là bài viết ngắn cho bản thảo. Tất cả chúng đều được lập chỉ mục sâu như cấp độ đoạn văn. Tôi may mắn có một kho văn bản như vậy, và tôi đang cố gắng dạy cho mình một số khái niệm NLP. Phải thừa nhận rằng, tôi chỉ mới bắt đầu. Vì vậy, đến nay chỉ đọc sách NLTK miễn phí, streamhacker, và sách dạy nấu ăn NLTK (?) NLTK. Tôi thích thử nghiệm với một số ý tưởng.NLTK/NLP buliding một phân loại chủ đề nhiều đến nhiều/nhiều nhãn

Điều đó đã được đề xuất với tôi, có lẽ, tôi có thể lấy bi-gam và sử dụng phân loại Bay ngây thơ để gắn thẻ các tài liệu mới. Tôi cảm thấy như thể đây là cách tiếp cận sai lầm. một Naive Bayes thành thạo một loại mối quan hệ đúng/sai, nhưng để sử dụng nó trên bộ thẻ phân cấp của tôi, tôi sẽ cần phải xây dựng một trình phân loại mới cho mỗi thẻ. Gần 1000 người trong số họ. Tôi có bộ nhớ và sức mạnh xử lý để thực hiện một nhiệm vụ như vậy, nhưng tôi hoài nghi về kết quả. Tuy nhiên, tôi sẽ thử phương pháp này trước, để xoa dịu yêu cầu của một ai đó. Tôi có thể sẽ thực hiện điều này trong một hoặc hai ngày tới, nhưng tôi dự đoán độ chính xác sẽ thấp.

Vì vậy, câu hỏi của tôi hơi mở kết thúc. Laregly bởi vì bản chất của kỷ luật và sự không đồng tình chung với dữ liệu của tôi có thể sẽ khó đưa ra câu trả lời chính xác.

  1. Loại phân loại nào sẽ phù hợp cho tác vụ này. Tôi sai có thể một Bayes được sử dụng cho nhiều hơn một loại hoạt động đúng/sai.

  2. tôi nên theo đuổi tính năng trích xuất nào cho một tác vụ như vậy. Tôi không mong đợi nhiều với các bigram.

Mỗi tài liệu cũng chứa một số thông tin citational bao gồm, tác giả/s, một tác giả giới tính của m, f, trộn (m & f), và khác (gov't inst et al.), Loại tài liệu, ngày xuất bản (từ 16 đến hiện tại), nhà phân tích con người và một vài yếu tố chung khác. Tôi cũng đánh giá cao một số nhiệm vụ mô tả hữu ích để giúp điều tra dữ liệu này tốt hơn cho xu hướng giới tính, phân tích phân tích, v.v. Nhưng nhận ra rằng có một chút vượt quá phạm vi của câu hỏi này.

+2

Sẽ thật thú vị khi xem Khoảng cách nén bình thường giữa các tài liệu trong tập tương quan của bạn có tương quan với các thẻ không. –

Trả lời

10

Loại trình phân loại nào phù hợp cho tác vụ này. Tôi sai có thể một Bayes được sử dụng cho nhiều hơn một loại hoạt động đúng/sai.

Bạn có thể dễ dàng tạo một trình phân loại nhiều nhãn theo building a separate binary classifier for each class, có thể phân biệt giữa lớp đó và tất cả các lớp khác. Các lớp mà trình phân loại tương ứng mang lại một giá trị dương là đầu ra của trình phân loại kết hợp. Bạn có thể sử dụng Naïve Bayes cho thuật toán này hoặc bất kỳ thuật toán nào khác. (Bạn cũng có thể chơi thủ đoạn với sản lượng xác suất của NB và giá trị ngưỡng, nhưng ước tính xác suất của NB nổi tiếng là xấu, chỉ xếp hạng trong số đó là những gì làm cho nó có giá trị.)

Tôi nên theo đuổi tính năng nào tác vụ

Để phân loại văn bản, vf-idf vectơ được biết là hoạt động tốt, nhưng bạn chưa chỉ định tác vụ chính xác là gì. Bất kỳ siêu dữ liệu nào trên tài liệu cũng có thể hoạt động; hãy thử thực hiện một số phân tích thống kê đơn giản. Nếu bất kỳ tính năng nào của dữ liệu thường xuyên có mặt trong một số lớp hơn so với các tính năng khác, thì đó có thể là một tính năng hữu ích.

+0

Vì vậy, tôi không có nhiệm vụ trực tiếp. Sắp xếp đặt bàn chân của tôi trong nước. Những gì tôi muốn làm là tận dụng kho dữ liệu được gắn thẻ con người của tôi để xem liệu tôi có thể tự động hóa việc gắn thẻ bản thể luận phân cấp ở cấp đoạn hay không. – matchew

+0

@matchew: sau đó sử dụng bất kỳ tính năng nào có vẻ liên quan, hãy thử nhiều thiết lập và đánh giá chúng. Không có gì để nói những gì có liên quan mà không nhìn thấy dữ liệu. –

+0

cảm ơn sự giúp đỡ của bạn. Nó được đánh giá cao. Tôi hiểu sự phức tạp của câu hỏi, nhưng có lẽ tôi nên mở rộng phạm vi. Những loại tính năng trích xuất có thể theo đuổi. Tôi thích tf-idf tốt hơn nhiều so với bi-gram. Nhưng những gì khác thường được tìm thấy hữu ích. Tôi hiểu không có câu trả lời đúng. P.S. Tôi sẽ để lại câu hỏi này trong một vài ngày nữa với hy vọng sẽ khuyến khích nhiều thảo luận hơn về câu hỏi của tôi. – matchew

0

Tôi hiểu rằng bạn có hai nhiệm vụ cần giải quyết tại đây. Điều đầu tiên là bạn muốn gắn thẻ một bài báo dựa trên chủ đề của nó (?) và do đó bài viết có thể được phân loại trong nhiều hơn một loại/lớp và do đó bạn có một vấn đề phân loại nhiều nhãn. Có một số thuật toán được đề xuất để giải quyết vấn đề phân loại nhiều nhãn - vui lòng kiểm tra tài liệu. Tôi thấy bài viết này khá hữu ích khi tôi xử lý một vấn đề tương tự: http://citeseerx.ist.psu.edu/viewdoc/summary?doi=10.1.1.104.9401

Vấn đề thứ hai bạn muốn giải quyết là gắn thẻ giấy với tác giả, giới tính, loại tài liệu. Đây là một vấn đề đa lớp - mỗi lớp có nhiều hơn hai giá trị tiềm năng nhưng tất cả các tài liệu đều có một số giá trị cho các lớp này.

Tôi nghĩ là bước đầu tiên, điều quan trọng là phải hiểu sự khác biệt giữa phân loại nhiều lớp và nhiều nhãn.

Các vấn đề liên quan