2015-06-08 18 views
10

Tôi đang triển khai hệ thống có thể phát hiện cảm xúc của con người bằng văn bản. Có bất kỳ tập dữ liệu được chú thích theo cách thủ công nào có sẵn cho việc học và kiểm tra được giám sát không?Tập dữ liệu để phát hiện cảm xúc trong văn bản

+0

Nếu bạn đang nói về phát hiện tình cảm/khai thác ý kiến: có, đã có một số tác vụ được chia sẻ. Tôi khá chắc chắn Google sẽ tìm thấy một số trong số họ. – lenz

+0

thực sự không phải là tình cảm. Tôi muốn một tập dữ liệu đã phân loại từ thành những cảm xúc khác nhau.Tôi đã thử google nhưng không tìm thấy một cái tốt – ekka

+0

là bạn đang tìm kiếm cái gì đó như, cái chết: cảm giác (buồn) sinh: cảm giác (hạnh phúc) –

Trả lời

17

Trường phát hiện cảm xúc văn bản vẫn còn rất mới và tài liệu bị phân mảnh trong nhiều tạp chí khác nhau của các trường khác nhau. Thật khó để có được một cái nhìn tốt về những gì ngoài kia.

Lưu ý rằng có một số lý thuyết cảm xúc về tâm lý học. Do đó có một cách khác nhau để mô hình hóa/đại diện cho cảm xúc trong máy tính. Hầu hết các lần "cảm xúc" đều đề cập đến một hiện tượng như giận dữ, sợ hãi hoặc vui vẻ. Các lý thuyết khác nói rằng tất cả các cảm xúc có thể được biểu diễn trong một không gian đa chiều (vì vậy có một số lượng vô hạn của chúng).

Dưới đây là một số (công khai) tập hợp dữ liệu tôi biết (cập nhật):

  1. EmoBank. 10k câu được chú thích với các giá trị Valence, Arousal và Dominance (tiết lộ: Tôi là một trong những tác giả). https://github.com/JULIELab/EmoBank

  2. Tập dữ liệu "Cường độ cảm xúc trong Tweets" từ tác vụ được chia sẻ WASSA 2017. http://saifmohammad.com/WebPages/EmotionIntensity-SharedTask.html

  3. Các Valence và hưng phấn Facebook bài viết bởi Preotiuc-Pietro và khác: http://wwbp.org/downloads/public_data/dataset-fb-valence-arousal-anon.csv

  4. Các ảnh hưởng đến dữ liệu bằng cách Cecilia Ovesdotter Alm: http://people.rc.rit.edu/~coagla/affectdata/index.html

  5. Các Emotion trong dữ liệu văn bản thành bởi CrowdFlower https://www.crowdflower.com/wp-content/uploads/2016/07/text_emotion.csv

  6. ISEAR: http://emotion-research.net/toolbox/toolboxdatabase.2006-10-13.2581092615

  7. thử nghiệm Corpus của SemEval 2007 (công tác trên bản Affective) http://web.eecs.umich.edu/~mihalcea/downloads.html

  8. Một reannotation của dữ liệu Stance SemEval với những cảm xúc: http://www.ims.uni-stuttgart.de/data/ssec

Nếu bạn muốn đi sâu hơn vào chủ đề, dưới đây là một số khảo sát mà tôi đề xuất (tiết lộ: Tôi là tác giả đầu tiên).

  1. Buechel, S., & Hahn, U. (2016). Phân tích cảm xúc như một vấn đề hồi quy - Các mô hình chiều và các hệ lụy của chúng trên biểu diễn cảm xúc và đánh giá Metrical. Trong ECAI 2016.22 và Hội nghị châu Âu về trí tuệ nhân tạo (trang 1114–1122). The Hague, Hà Lan (có sẵn: http://ebooks.iospress.nl/volumearticle/44864).

  2. Canales, L., & Martínez-Barco, P. (n.d.). Phát hiện cảm xúc từ văn bản: Khảo sát. Xử lý trong Ngày làm việc nghiên cứu hệ thống thông tin lần thứ 5 (JISIC 2014), 37 (có sẵn: http://www.aclweb.org/anthology/W14-6905).

+2

tài nguyên hữu ích có thể là [corpus tình cảm thẻ băm của Saif Mohammad] (http://saifmohammad.com/WebDocs/Jan9-2012-tweets-clean.txt.zip). Để biết thêm thông tin về dữ liệu, hãy xem [trang này] (http://saifmohammad.com/WebPages/lexicons.html) – drevicko

+0

@beuchel bạn có biết một tài nguyên mà tôi có thể sử dụng để chuyển đổi hóa đơn EmoBank của bạn và kích thích nhãn thành tiêu chuẩn không cảm xúc nhãn? Tôi tưởng tượng rằng chỉ cần sử dụng các ngưỡng trên các giá trị trục và ánh xạ các vùng khác nhau đến các cảm xúc khác nhau sẽ hoạt động. Tôi dường như không thể tìm thấy những giá trị mà tôi nên sử dụng cho thresholding, mặc dù. –

+1

@SiddharthKumar Tôi đoán bạn thực sự có thể sử dụng bất kỳ kỹ thuật học máy nào để thực hiện điều đó. Có thực sự là một thử nghiệm về nó được mô tả trong bài báo. – buechel

Các vấn đề liên quan