46

Tôi có thể lấy một kho tài liệu đã được phân loại là dương/âm cho tình cảm trong miền công ty ở đâu? Tôi muốn có một kho tài liệu lớn cung cấp đánh giá cho các công ty, như đánh giá của các công ty được cung cấp bởi các nhà phân tích và truyền thông.Dữ liệu huấn luyện để phân tích tình cảm

Tôi tìm các tập đoàn có bài đánh giá về sản phẩm và phim. Có một kho dữ liệu cho tên miền kinh doanh bao gồm các bài đánh giá của các công ty, phù hợp với ngôn ngữ của doanh nghiệp không?

+0

Xem thêm những câu hỏi có liên quan này: http://stackoverflow.com/questions/5570681/what-training-data-sources-could-be-used-for-sentiment-classification-models –

Trả lời

32

http://www.cs.cornell.edu/home/llee/data/

http://mpqa.cs.pitt.edu/corpora/mpqa_corpus

Bạn có thể sử dụng twitter, với biểu tượng mặt cười của nó, như thế này: http://web.archive.org/web/20111119181304/http://deepthoughtinc.com/wp-content/uploads/2011/01/Twitter-as-a-Corpus-for-Sentiment-Analysis-and-Opinion-Mining.pdf

Hy vọng rằng sẽ giúp bạn bắt đầu. Có nhiều hơn trong tài liệu, nếu bạn quan tâm đến các công việc phụ cụ thể như phủ định, phạm vi tình cảm, v.v.

Để tập trung vào các công ty, bạn có thể ghép một phương pháp với phát hiện chủ đề hoặc giá rẻ một công ty nhất định. Hoặc bạn có thể nhận được dữ liệu của bạn được chú thích bởi Mechanical Turkers.

+1

FYI pitt được chuyển đến đây http: //mpqa.cs.pitt .edu/corpora/mpqa_corpus/ –

1

Tôi không biết bất kỳ kho lưu trữ nào như vậy đều có sẵn miễn phí, nhưng bạn có thể thử một số unsupervised method trên tập dữ liệu không được gắn nhãn.

4

Nếu bạn có một số tài nguyên (các kênh truyền thông, blog, vv) về lĩnh vực bạn muốn khám phá, bạn có thể tạo corpus của riêng bạn. Tôi làm điều này trong python:

  • sử dụng Súp đẹp http://www.crummy.com/software/BeautifulSoup/ để phân tích nội dung mà tôi muốn phân loại.
  • tách biệt các câu đó có nghĩa là ý kiến ​​tích cực/tiêu cực về các công ty.
  • Sử dụng NLTK để xử lý câu này, lời nói tokenize, gắn thẻ POS vv
  • Sử dụng NLTK PMI để tính toán bigrams hoặc bát quái mos thường xuyên trong chỉ có một lớp

Tạo corpus là một công việc khó khăn của trước xử lý, kiểm tra, gắn thẻ, v.v., nhưng có lợi ích khi chuẩn bị mô hình cho một miền cụ thể nhiều lần tăng độ chính xác. Nếu bạn có thể nhận được tài liệu đã chuẩn bị sẵn sàng, chỉ cần tiếp tục phân tích tình cảm;)

0

Bạn có thể nhận được nhiều lựa chọn đánh giá trực tuyến từ Datafiniti. Hầu hết các đánh giá đều có dữ liệu xếp hạng, cung cấp chi tiết hơn về tình cảm hơn là tích cực/tiêu cực. Đây là số list of businesses with reviews và đây là số list of products with reviews.

13

Đây là danh sách tôi đã viết cách đây vài tuần, từ my blog. Một số bộ dữ liệu này gần đây đã được đưa vào nền tảng NLTK Python.

lexicons


Datasets


Tài liệu tham khảo:

+1

Câu trả lời hay. Cảm ơn rất nhiều Kurt. – ylnor

Các vấn đề liên quan