2010-11-15 37 views
35

Tôi đã tự hỏi liệu có ai biết nơi tôi có thể có được từ điển các từ tích cực và tiêu cực. Tôi đang xem xét phân tích tình cảm và đây là một phần quan trọng của nó.Từ điển phân tích ý kiến ​​

Trả lời

32

Sentiment Lexicon, tại Đại học Pittsburgh có thể là những gì bạn đang làm sau. Đó là một từ vựng của khoảng 8.000 từ với tâm lý tích cực/trung lập/tiêu cực. Nó được mô tả chi tiết hơn trong this paper và được phát hành theo GPL.

6

This paper from 2002 mô tả thuật toán tự động lấy từ điển từ mẫu văn bản, chỉ sử dụng hai từ làm tập hợp hạt.

+3

Vấn đề là phương pháp này sử dụng AltaVista lượt truy cập để tính PMI-IR, vì vậy tôi không nghĩ rằng đó là tối ưu cho một người muốn để bắt đầu. Hơn nữa nó là một cách tiếp cận không giám sát, và kết quả của nó vẫn không thú vị nếu so sánh với cách tiếp cận được giám sát. –

19

Đến trễ một chút Tôi sẽ chỉ lưu ý rằng các từ điển có đóng góp hạn chế trong phân tích tình cảm. Một số câu mang ý kiến ​​tình cảm không chứa bất kỳ từ "tình cảm" nào - ví dụ: "đọc sách" có thể tích cực trong bài đánh giá sách trong khi phủ định trong bài đánh giá phim. Tương tự, từ tình cảm "không thể đoán trước" có thể là tích cực trong bối cảnh của một bộ phim kinh dị nhưng tiêu cực khi mô tả hệ thống phá vỡ của Toyota.

và có rất nhiều ...

+0

Điểm thực sự tốt. May mắn cho tôi, tôi chỉ đối phó với một số nguồn tin nhất định, những người sẽ kiềm chế không sử dụng tiếng lóng và thường chỉ nói sự thật. Tuy nhiên, chắc chắn có điều gì đó phải lo lắng, cảm ơn. – user387049

+2

Tôi nghĩ khi sử dụng từ điển không có ngữ cảnh, hy vọng là trong khi có thể có một số lượng nhiễu nhất định (phân loại sai) cho từng câu, thì sẽ có đủ tín hiệu trong tổng hợp để có ý nghĩa. Tôi không chắc chắn làm thế nào người ta sẽ đi về thử nghiệm hy vọng này với rigour thống kê, mặc dù. – mcduffee

2

AFINN bạn có thể tìm thấy ở đây và cũng có thể tạo ra nó tự động. Giống như bất cứ khi nào không biết từ + ve đến, hãy thêm nó bằng +1. Giống như chuối là new + ve word và xuất hiện hai lần thì nó sẽ trở thành +2.

Vì nhiều bài viết và dữ liệu bạn thu thập từ điển của bạn sẽ trở nên mạnh mẽ hơn!

+3

Tệp đó thực sự là một tệp đồ chơi, được tạo cho một bài tập lớp. Theo tôi, nó sẽ là một sai lầm để sử dụng nó cho công việc thực tế. – mcduffee

+0

@mcduffee Xây dựng? – jbird

+0

@jbird Tôi không chắc chắn những gì tôi có thể thêm. Tệp đã được tạo cho một bài tập lớp, trong đó văn bản để đánh giá được điều chỉnh theo các từ trong danh sách. Nó thiếu nhiều, nhiều từ (toàn bộ danh sách dưới 2500 từ). Cố gắng sử dụng nó với văn bản chưa được chỉnh sửa cho các từ trong danh sách, tôi sợ, dẫn đến đánh giá tình cảm kém chính xác hơn là một danh sách đầy đủ hơn sẽ cung cấp. – mcduffee

16
0

Bạn có thể sử dụng Vader tình cảm từ vựng

from nltk.sentiment.vader import SentimentIntensityAnalyzer 

sentence='APPle is good for health' 
sid = SentimentIntensityAnalyzer() 
ss = sid.polarity_scores(sentence) 
print(ss) 

nó sẽ cung cấp cho bạn sự phân cực của câu.

đầu ra:

{'compound': 0.4404, 'neu': 0.58, 'pos': 0.42, 'neg': 0.0} 
Các vấn đề liên quan