2012-05-28 41 views
5

Ngày tốt, Tôi đang cố gắng viết một ứng dụng phân tích tình cảm trong python (Sử dụng phân loại naive-bayes) với mục đích phân loại các cụm từ tin tức là dương hoặc âm. Và tôi đang gặp một chút rắc rối khi tìm một kho dữ liệu thích hợp cho điều đó. Tôi đã thử sử dụng "General Inquirer" (http://www.wjh.harvard.edu/~inquirer/homecat.htm) hoạt động tốt nhưng tôi có một vấn đề lớn ở đó. Vì đây là danh sách từ, không phải danh sách cụm từ, tôi quan sát vấn đề sau khi cố gắn nhãn câu sau:Cụm từ cụm từ để phân tích tình cảm

Anh ta không được mong đợi thắng.

Câu này được phân loại là dương, sai. Lý do cho điều đó là "thắng" là tích cực, nhưng "không" không mang bất kỳ nghĩa nào vì "không thắng" là một cụm từ. Có ai có thể đề xuất một kho dữ liệu hoặc một công việc xung quanh cho vấn đề đó không? Trợ giúp và thông tin chi tiết của bạn được đánh giá cao.

+0

Như một mặt lưu ý: Bạn có mong đợi ngây thơ Bayes để làm việc ở đây? Giả sử tất cả các tính năng của chúng tôi là "giành chiến thắng", "mất" và "không" và "thắng" và "thua" xuất hiện theo tỷ lệ bằng nhau. Sau đó, "thắng" hoặc "không thắng" sẽ bị phân loại sai. –

+0

Tôi tin rằng đó là lý do tại sao anh ấy hỏi về việc sử dụng các cụm từ làm tính năng. – phs

+0

Tôi nghĩ anh ấy đang sử dụng các từ như các tính năng để phân loại các cụm từ ... –

Trả lời

4

Xem ví dụ: "Có gì tuyệt vời và những gì không: học để phân loại các phạm vi phủ định để phân tích tình cảm cải thiện" bởi Councill, McDonald, và Velikovich

http://dl.acm.org/citation.cfm?id=1858959.1858969

và followups,

http://scholar.google.com/scholar?cites=3029019835762139237&as_sdt=5,33&sciodt=0,33&hl=en

ví dụ bởi Morante et al 2011

http://eprints.pascal-network.org/archive/00007634/

+0

Cảm ơn bạn Georgy. Tôi chắc chắn sẽ có một cái nhìn. – TE0

3

Trong trường hợp này, công việc không sửa đổi ý nghĩa của cụm từ để đạt được, đảo ngược. Để xác định điều này, bạn cần phải gắn thẻ POS cho câu và áp dụng từ khóa phủ định không vào cụm từ động từ (tôi nghĩ) làm phủ định. Tôi không biết liệu có một kho văn bản nào có thể nói với bạn rằng không phải kiểu sửa đổi này hay không.

+1

Tôi thích việc sử dụng từ ngữ "không" của bạn rất khác nhau ở gần cuối. Chúc may mắn cho tất cả các thuật toán của chúng tôi để tìm hiểu điều gì đang phủ nhận! :-) –

Các vấn đề liên quan