2015-02-25 17 views
6

Tôi hiện đang làm việc trên một dự án, nơi tôi muốn trích xuất cảm xúc từ văn bản. Khi tôi đang sử dụng conceptnet5 (một mạng ngữ nghĩa), tôi không thể chỉ đơn giản là tiền tố từ trong một câu có chứa một từ phủ định, vì những từ đó sẽ không hiển thị trong API của conceptnet5.Xử lý tiêu cực trong NLP

Dưới đây là một ví dụ:

Bộ phim không phải là tốt.

Do đó, tôi thấy rằng tôi có thể sử dụng chức năng bổ đề của wordnet để thay thế tính từ trong câu chứa từ phủ định như (không, ...).

Trong ví dụ trước, thuật toán sẽ phát hiện wasn't và thay thế bằng was not. Hơn nữa, nó sẽ phát hiện từ phủ định not và thay thế good bằng từ trái nghĩa bad. Câu sẽ đọc:

Phim quá tệ.

Trong khi tôi thấy rằng đây không phải là cách thanh lịch nhất, và có thể trong nhiều trường hợp tạo ra kết quả sai, tôi vẫn muốn xử lý phủ định theo cách này. tiếp cận.

Xét vấn đề của tôi: Thật không may, tôi không tìm thấy bất kỳ thư viện mà sẽ cho phép tôi để thay thế tất cả các lần xuất hiện của nối phủ-từ (wasn't =>was not). Tôi có nghĩa là tôi có thể làm điều đó bằng tay, bằng cách thay thế các lần xuất hiện bằng regex, nhưng sau đó tôi sẽ bị mắc kẹt với ngôn ngữ tiếng Anh.

Vì vậy, tôi muốn hỏi xem một số bạn có biết thư viện, chức năng hoặc phương pháp tốt hơn có thể giúp tôi ở đây không. Hiện tại tôi đang sử dụng python nltk, có vẻ như nó không chứa chức năng như vậy, nhưng tôi có thể sai.

Cảm ơn trước :)

Trả lời

11

trường hợp như wasn't có thể chỉ cần phân tích bằng tokenization (tokens = nltk.word_tokenize(sentence)): wasn't sẽ biến thành wasn't.

Nhưng ý nghĩa tiêu cực cũng có thể được hình thành bởi 'Từ ngữ tiêu cực, như hầu như không, hiếm khi, hiếm khi' và 'Phủ định âm, chẳng hạn như thất bại, ngăn chặn, miễn cưỡng, phủ nhận, vắng mặt', xem xét this paper. Phân tích chi tiết hơn có thể được tìm thấy trong số On the negativity of negation của Christopher Potts.

Xem xét vấn đề ban đầu của bạn, phân tích tình cảm, phương pháp tiếp cận hiện đại nhất, theo như tôi biết, không xử lý các từ khóa một cách rõ ràng; thay vào đó, họ sử dụng các phương pháp được giám sát với n-grams bậc cao. Những người thực sự xử lý phủ định thường nối thêm tiền tố NOT_ đặc biệt cho tất cả các từ giữa các dấu chấm câu và dấu chấm câu.

+2

Liên kết đầu tiên đã bị hỏng. Tôi đã theo dõi nó: http: //www.academypublication.com/issues/past/tpls/vol03/07/17.pdf – KAG1224

Các vấn đề liên quan