Tôi đang cố gắng thực hiện một loạt các bài đánh giá và chuyển đổi chúng thành định dạng ARFF để sử dụng với WEKA. Thật không may là tôi hoàn toàn hiểu lầm cách thức hoạt động của định dạng, hoặc tôi sẽ phải có một thuộc tính cho TẤT CẢ các từ có thể, sau đó là một chỉ báo hiện diện. Có ai biết một cách tốt hơn, hoặc lý tưởng có một tập tin mẫu ARFF?ARFF để xử lý ngôn ngữ tự nhiên
Trả lời
Đã một thời gian để làm việc ra, nhưng với input.arff này:
@relation text_files
@attribute review string
@attribute sentiment {0, 1}
@data
"this is some text", 1
"this is some more text", 1
"different stuff", 0
Và lệnh này:
java -classpath "C:\\Program Files\\Weka-3-6\\weka.jar" weka.filters.unsupervised.attribute.StringToWordVector -i input.arff -o output.arff
Sau đây là sản phẩm:
@relation 'text_files-weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullStemmer-M1-tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"'
@attribute sentiment {0,1}
@attribute different numeric
@attribute is numeric
@attribute more numeric
@attribute some numeric
@attribute stuff numeric
@attribute text numeric
@attribute this numeric
@data
{0 1,2 1,4 1,6 1,7 1}
{0 1,2 1,3 1,4 1,6 1,7 1}
{1 1,5 1}
Nếu bạn lưu trữ các bài đánh giá trong các tệp văn bản thuần túy và các thư mục khác nhau (tích cực và tiêu cực trong trường hợp của bạn), bạn có thể sử dụng TextDirectoryLoader.
Bạn tìm thấy điều này trong ứng dụng KnowledgeFlow trong Weka hoặc từ dòng lệnh. Thông tin thêm ở đây: http://weka.wikispaces.com/ARFF+files+from+Text+Collections
Định dạng của các tập tin một ví dụ, nói một đánh giá, mỗi dòng trong các tập tin txt? –
không, bạn có thể có một số dòng trên mỗi txt – zdepablo
- 1. Gói Xử lý Ngôn ngữ Tự nhiên
- 2. Python và Java để xử lý ngôn ngữ tự nhiên
- 3. Xử lý ngôn ngữ tự nhiên trong PHP
- 4. Xử lý ngôn ngữ tự nhiên trong Ruby
- 5. Giải pháp xử lý ngôn ngữ tự nhiên trong Java?
- 6. Cơ sở dữ liệu về xử lý truy vấn ngôn ngữ tự nhiên
- 7. Thuật toán xử lý ngôn ngữ tự nhiên cho tâm trạng của một email
- 8. Trong xử lý ngôn ngữ tự nhiên, mục đích của chunking là gì?
- 9. Có thư viện xử lý ngôn ngữ tự nhiên thống kê nào cho Haskell không?
- 10. Có thư viện xử lý ngôn ngữ tự nhiên tốt hay không
- 11. NET dll cho ngôn ngữ tự nhiên để SQL/SPARQL
- 12. Tạo ngôn ngữ tự nhiên trong PHP
- 13. Chunker trong chế biến ngôn ngữ tự nhiên là gì?
- 14. Xử lý ngôn ngữ tự nhiên - Chuyển đổi các tính năng văn bản thành đặc tính Vectors
- 15. Phát hiện và/hoặc nhận dạng sai lầm hợp pháp bằng xử lý ngôn ngữ tự nhiên
- 16. Trình tạo ngôn ngữ tự nhiên cho các ngày (Java)
- 17. Thư viện ngôn ngữ tự nhiên tốt để sử dụng để diễn giải là gì?
- 18. Ngữ pháp ngôn ngữ tự nhiên và tên do người dùng nhập
- 19. Xử lý ngoại lệ trong ngôn ngữ Google Go
- 20. Tự động xác định ngôn ngữ tự nhiên của trang web được cung cấp URL
- 21. Thực tiễn tốt nhất để xử lý ngôn ngữ bằng các công cụ chuyển tiền và ngôn ngữ
- 22. Cách hiệu quả nhất khi làm việc với nhiều ngôn ngữ tự nhiên
- 23. Ngôn ngữ nào lý tưởng cho robot
- 24. Xử lý thích hợp GetLastError (và các ngôn ngữ khác) trong ngữ cảnh đa luồng
- 25. Trình phân tích cú pháp ngày ngôn ngữ tự nhiên cho ruby / ray
- 26. Làm cách nào để xử lý nhiều ngôn ngữ trong java?
- 27. Cách tốt nhất để xử lý URL trong một trang web đa ngôn ngữ trong ASP.net
- 28. Từ tiếng Anh tự nhiên
- 29. Cách tốt nhất để liệt kê một danh sách bằng ngôn ngữ tự nhiên (Scala) là gì?
- 30. Xây dựng một mô hình ngôn ngữ tự nhiên, có thể chữa lỗi chính tả
Bạn có biết các bộ dữ liệu như '0 1', được phân tách bằng dấu phẩy trong' {0 1,2 1,4 1,6 1,7 1} 'đại diện không? Tôi nghĩ rằng điều này khác với định dạng .arff thông thường. Bạn có may mắn nhận được kết quả có ý nghĩa với WEKA không? – Rhubarb
Đây là một bài đăng cũ, nhưng từ những gì tôi nhớ lại chữ số đầu tiên trong bộ dữ liệu là số @attribute, và số thứ hai là số lần xuất hiện trong chuỗi. Tôi nghĩ rằng ở một mức độ nhất định nó có thể có nghĩa là những gì bạn muốn, miễn là bạn hiểu những gì các kết quả có ý nghĩa. –