2010-01-14 40 views
7

Có một bài nghiên cứu/cuốn sách mà tôi có thể đọc mà có thể cho tôi biết vấn đề trong tầm tay những gì loại thuật toán lựa chọn tính năng sẽ hoạt động tốt nhất.Cách chọn Thuật toán lựa chọn tính năng? - lời khuyên

Tôi đang cố gắng chỉ đơn giản là xác định tin nhắn twitter là pos/neg (để bắt đầu bằng). Tôi bắt đầu với lựa chọn tính năng dựa trên tần số (đã bắt đầu với sách NLTK) nhưng sớm nhận ra rằng đối với một vấn đề tương tự, nhiều cá nhân khác nhau đã chọn các thuật toán khác nhau

Mặc dù tôi có thể thử Tần số, thông tin lẫn nhau, thông tin và các thuật toán khác danh sách có vẻ vô tận .. và đã tự hỏi nếu có một cách hiệu quả sau đó thử và sai.

lời khuyên nào

Trả lời

4

Tôi đã làm một NLP nhiên hạn cuối cùng, và nó đến khá rõ ràng rằng phân tích tình cảm là một cái gì đó mà không ai thực sự biết làm thế nào để làm tốt (chưa). Làm điều này với học tập không giám sát là tất nhiên khó khăn hơn.

Có khá nhiều nghiên cứu đang diễn ra liên quan đến điều này, một số quảng cáo mang tính thương mại và do đó không mở cửa cho công chúng. Tôi không thể chỉ cho bạn bất kỳ tài liệu nghiên cứu nào nhưng cuốn sách mà chúng tôi đã sử dụng cho khóa học là this (google books preview). Điều đó nói rằng, cuốn sách bao gồm rất nhiều tài liệu và có thể không phải là cách nhanh nhất để tìm ra giải pháp cho vấn đề cụ thể này.

Điều duy nhất tôi có thể chỉ cho bạn hướng tới là thử googling xung quanh, có thể trong scholar.google.com cho "phân tích tình cảm" hoặc "khai thác ý kiến".

Hãy xem kho dữ liệu NLTK movie_reviews. Các bài đánh giá đã được phân loại là pos/neg và có thể giúp bạn đào tạo trình phân loại của bạn. Mặc dù ngôn ngữ bạn tìm thấy trong Twitter có thể rất khác với ngôn ngữ đó.

Lưu ý cuối cùng, vui lòng đăng bất kỳ thành công nào (hoặc lỗi cho vấn đề đó) tại đây. Vấn đề này sẽ xuất hiện sau này tại một thời điểm nào đó.

+0

sách có bất kỳ mã đi kèm nào không hoặc lý thuyết có nặng không? –

+0

Đó là lý thuyết khá nặng và chủ yếu tập trung vào nền toán học cho các phương pháp không thực hiện. Tôi tìm thấy nó từ sách google và bạn có thể có một trình duyệt ở đó. Tôi sẽ thêm liên kết vào bài đăng gốc của mình. –

1

Thật không may, không có viên đạn bạc cho bất cứ thứ gì khi giao dịch với máy học. Nó thường được gọi là định lý "No Free Lunch". Về cơ bản một số thuật toán làm việc cho một vấn đề, và một số làm tốt hơn trên một số vấn đề và tồi tệ hơn trên những người khác. Hơn tất cả, tất cả chúng đều hoạt động giống nhau. Bộ tính năng tương tự có thể khiến một thuật toán hoạt động tốt hơn và một thuật toán khác hoạt động kém hơn cho một tập dữ liệu nhất định. Đối với một tập dữ liệu khác, tình huống có thể hoàn toàn bị đảo ngược.

Thông thường những gì tôi làm là chọn một vài thuật toán lựa chọn tính năng đã hoạt động cho những người khác trên các tác vụ tương tự và sau đó bắt đầu với những tác vụ đó. Nếu hiệu suất tôi nhận được bằng cách sử dụng phân loại yêu thích của tôi là chấp nhận được, scrounging cho một nửa điểm phần trăm có lẽ không phải là giá trị thời gian của tôi. Nhưng nếu nó không được chấp nhận, thì đó là thời gian để đánh giá lại cách tiếp cận của tôi, hoặc để tìm kiếm thêm các phương pháp lựa chọn tính năng.

6

Bạn đã thử sách tôi đã đề xuất cho câu hỏi cuối cùng của bạn chưa? Nó hoàn toàn miễn phí trực tuyến và hoàn toàn về nhiệm vụ bạn đang xử lý: Sentiment Analysis and Opinion Mining bởi Pang và Lee. Chương 4 ("Khai thác và phân loại") chỉ là những gì bạn cần!

+1

Tôi đã không nhận ra rằng nó có sẵn miễn phí - Tôi chỉ thấy câu hỏi và tìm thấy pdf - tôi nghĩ rằng nó có thể là thú vị - tôi đã hơi dissuaded khi tôi thấy giá $ 99 trên amazon - nhờ sự giúp đỡ của bạn.Tôi đang đọc nó ngay bây giờ .. –

+1

Bạn đang rất hoan nghênh. Btw, bây giờ bạn có hơn 15 điểm danh tiếng, bạn cũng có thể upvotes, hehe ... ;-) – ferdystschenko

Các vấn đề liên quan