2011-05-28 36 views
9

Tôi đang cố gắng thực hiện một loạt các bài đánh giá và chuyển đổi chúng thành định dạng ARFF để sử dụng với WEKA. Thật không may là tôi hoàn toàn hiểu lầm cách thức hoạt động của định dạng, hoặc tôi sẽ phải có một thuộc tính cho TẤT CẢ các từ có thể, sau đó là một chỉ báo hiện diện. Có ai biết một cách tốt hơn, hoặc lý tưởng có một tập tin mẫu ARFF?ARFF để xử lý ngôn ngữ tự nhiên

Trả lời

3

Đã một thời gian để làm việc ra, nhưng với input.arff này:

@relation text_files 

@attribute review string 
@attribute sentiment {0, 1} 

@data 
"this is some text", 1 
"this is some more text", 1 
"different stuff", 0 

Và lệnh này:

java -classpath "C:\\Program Files\\Weka-3-6\\weka.jar" weka.filters.unsupervised.attribute.StringToWordVector -i input.arff -o output.arff 

Sau đây là sản phẩm:

@relation 'text_files-weka.filters.unsupervised.attribute.StringToWordVector-R1-W1000-prune-rate-1.0-N0-stemmerweka.core.stemmers.NullStemmer-M1-tokenizerweka.core.tokenizers.WordTokenizer -delimiters \" \\r\\n\\t.,;:\\\'\\\"()?!\"' 

@attribute sentiment {0,1} 
@attribute different numeric 
@attribute is numeric 
@attribute more numeric 
@attribute some numeric 
@attribute stuff numeric 
@attribute text numeric 
@attribute this numeric 

@data 

{0 1,2 1,4 1,6 1,7 1} 
{0 1,2 1,3 1,4 1,6 1,7 1} 
{1 1,5 1} 
+0

Bạn có biết các bộ dữ liệu như '0 1', được phân tách bằng dấu phẩy trong' {0 1,2 1,4 1,6 1,7 1} 'đại diện không? Tôi nghĩ rằng điều này khác với định dạng .arff thông thường. Bạn có may mắn nhận được kết quả có ý nghĩa với WEKA không? – Rhubarb

+2

Đây là một bài đăng cũ, nhưng từ những gì tôi nhớ lại chữ số đầu tiên trong bộ dữ liệu là số @attribute, và số thứ hai là số lần xuất hiện trong chuỗi. Tôi nghĩ rằng ở một mức độ nhất định nó có thể có nghĩa là những gì bạn muốn, miễn là bạn hiểu những gì các kết quả có ý nghĩa. –

4

Nếu bạn lưu trữ các bài đánh giá trong các tệp văn bản thuần túy và các thư mục khác nhau (tích cực và tiêu cực trong trường hợp của bạn), bạn có thể sử dụng TextDirectoryLoader.

Bạn tìm thấy điều này trong ứng dụng KnowledgeFlow trong Weka hoặc từ dòng lệnh. Thông tin thêm ở đây: http://weka.wikispaces.com/ARFF+files+from+Text+Collections

+0

Định dạng của các tập tin một ví dụ, nói một đánh giá, mỗi dòng trong các tập tin txt? –

+0

không, bạn có thể có một số dòng trên mỗi txt – zdepablo

Các vấn đề liên quan