Tôi đã tự hỏi liệu có ai biết nơi tôi có thể có được từ điển các từ tích cực và tiêu cực. Tôi đang xem xét phân tích tình cảm và đây là một phần quan trọng của nó.Từ điển phân tích ý kiến
Trả lời
Sentiment Lexicon, tại Đại học Pittsburgh có thể là những gì bạn đang làm sau. Đó là một từ vựng của khoảng 8.000 từ với tâm lý tích cực/trung lập/tiêu cực. Nó được mô tả chi tiết hơn trong this paper và được phát hành theo GPL.
This paper from 2002 mô tả thuật toán tự động lấy từ điển từ mẫu văn bản, chỉ sử dụng hai từ làm tập hợp hạt.
Đến trễ một chút Tôi sẽ chỉ lưu ý rằng các từ điển có đóng góp hạn chế trong phân tích tình cảm. Một số câu mang ý kiến tình cảm không chứa bất kỳ từ "tình cảm" nào - ví dụ: "đọc sách" có thể tích cực trong bài đánh giá sách trong khi phủ định trong bài đánh giá phim. Tương tự, từ tình cảm "không thể đoán trước" có thể là tích cực trong bối cảnh của một bộ phim kinh dị nhưng tiêu cực khi mô tả hệ thống phá vỡ của Toyota.
và có rất nhiều ...
Điểm thực sự tốt. May mắn cho tôi, tôi chỉ đối phó với một số nguồn tin nhất định, những người sẽ kiềm chế không sử dụng tiếng lóng và thường chỉ nói sự thật. Tuy nhiên, chắc chắn có điều gì đó phải lo lắng, cảm ơn. – user387049
Tôi nghĩ khi sử dụng từ điển không có ngữ cảnh, hy vọng là trong khi có thể có một số lượng nhiễu nhất định (phân loại sai) cho từng câu, thì sẽ có đủ tín hiệu trong tổng hợp để có ý nghĩa. Tôi không chắc chắn làm thế nào người ta sẽ đi về thử nghiệm hy vọng này với rigour thống kê, mặc dù. – mcduffee
Giáo sư Bing Liu cung cấp một Lexicon tiếng Anh của khoảng 6800 từ, bạn có thể tải về hình thức liên kết này: Opinion Mining, Sentiment Analysis, and Opinion Spam Detection
AFINN bạn có thể tìm thấy ở đây và cũng có thể tạo ra nó tự động. Giống như bất cứ khi nào không biết từ + ve đến, hãy thêm nó bằng +1. Giống như chuối là new + ve word và xuất hiện hai lần thì nó sẽ trở thành +2.
Vì nhiều bài viết và dữ liệu bạn thu thập từ điển của bạn sẽ trở nên mạnh mẽ hơn!
Tệp đó thực sự là một tệp đồ chơi, được tạo cho một bài tập lớp. Theo tôi, nó sẽ là một sai lầm để sử dụng nó cho công việc thực tế. – mcduffee
@mcduffee Xây dựng? – jbird
@jbird Tôi không chắc chắn những gì tôi có thể thêm. Tệp đã được tạo cho một bài tập lớp, trong đó văn bản để đánh giá được điều chỉnh theo các từ trong danh sách. Nó thiếu nhiều, nhiều từ (toàn bộ danh sách dưới 2500 từ). Cố gắng sử dụng nó với văn bản chưa được chỉnh sửa cho các từ trong danh sách, tôi sợ, dẫn đến đánh giá tình cảm kém chính xác hơn là một danh sách đầy đủ hơn sẽ cung cấp. – mcduffee
Niềm tin Phân tích (Opinion Mining) lexicons
- MPQA Subjectivity Lexicon
- Bing Liu and Minqing Hu Sentiment Lexicon
- SentiWordNet (Bao gồm trong NLTK)
- VADER Sentiment Lexicon
- SenticNet
- LIWC (not free)
- Harvard Inquirer
- ANEW
Nguồn:
- Keenformatics - Sentiment Analysis lexicons and datasets (blog)
- Hutto, C. J., and Eric Gilbert. "Vader: A parsimonious rule-based model for sentiment analysis of social media text." Eighth International AAAI Conference on Weblogs and Social Media. 2014.
- Sentiment Symposium Tutorial by Christopher Potts
- kinh nghiệm cá nhân
Các Harvard-IV thư mục từ điển http://www.wjh.harvard.edu/~inquirer/homecat.htm có ít nhất hai bộ từ điển sẵn sàng để sử dụng cho định hướng tích cực/tiêu cực.
Bạn có thể sử dụng Vader tình cảm từ vựng
from nltk.sentiment.vader import SentimentIntensityAnalyzer
sentence='APPle is good for health'
sid = SentimentIntensityAnalyzer()
ss = sid.polarity_scores(sentence)
print(ss)
nó sẽ cung cấp cho bạn sự phân cực của câu.
đầu ra:
{'compound': 0.4404, 'neu': 0.58, 'pos': 0.42, 'neg': 0.0}
- 1. Phân tích ý kiến của thực thể
- 2. Phân tích ý kiến không được giám sát
- 3. Phân tích ý kiến bằng cách sử dụng R
- 4. Thuật toán phân tích ý kiến tồn tại là gì?
- 5. Phân tích ý nghĩa từ văn bản
- 6. phân tích tình cảm - wordNet, từ điển sentiWordNet
- 7. Làm thế nào để không tải các ý kiến trong khi phân tích XML trong lxml
- 8. Ý kiến về MSDeploy
- 9. Ý tưởng phân tích biểu đồ cú pháp ký tự
- 10. Phân tích ý kiến với python NLTK cho câu sử dụng dữ liệu mẫu hoặc dịch vụ web?
- 11. Mã nguồn haskell khá có ý kiến
- 12. Phân tích một file txt vào một từ điển để ghi vào tập tin csv
- 13. phân tích từ điển json trong javascript để lặp qua các phím
- 14. C# Cây nhị phân và từ điển
- 15. Gợi ý phân tích thuật toán chương trình Lisp?
- 16. Từ điển từ điển của IQueryable
- 17. Phân tích JSON từ URL
- 18. Kết hợp phân tích cú pháp phân tích cú pháp, phân tích cú pháp và phân tích cú pháp rừng
- 19. CSDL FuelPHP ORM cho i18n, ý kiến / góp ý
- 20. Làm thế nào để có được tất cả các ý kiến từ Disqus?
- 21. HTML5 ý kiến luồng ngữ nghĩa
- 22. delphi xe2 stringgrid với ý kiến
- 23. yếu tố đầu ra trong ý kiến
- 24. Xây dựng và phân tích Xcode - Có thể cố ý bỏ qua phân tích trên một tệp cụ thể không?
- 25. Json phân tích F #
- 26. Thực hiện một phân tích từ vựng
- 27. Cách phân tích ngày/giờ từ chuỗi?
- 28. C#: Phân tích động từ System.Type
- 29. Phân tích các động từ phrasal
- 30. Thăm dò ý kiến lâu dài ở Yesod
Vấn đề là phương pháp này sử dụng AltaVista lượt truy cập để tính PMI-IR, vì vậy tôi không nghĩ rằng đó là tối ưu cho một người muốn để bắt đầu. Hơn nữa nó là một cách tiếp cận không giám sát, và kết quả của nó vẫn không thú vị nếu so sánh với cách tiếp cận được giám sát. –