2014-12-03 14 views

Trả lời

16

Tôi thực sự khuyên bạn nên liac-arff. Nó không tải trực tiếp đến NumPy, nhưng việc chuyển đổi rất đơn giản: câu trả lời

import arff, numpy as np 
dataset = arff.load(open('mydataset.arff', 'rb')) 
data = np.array(dataset['data']) 
+0

Cảm ơn bạn đã phản hồi. Bất kỳ ý tưởng nào về cách tôi có thể sử dụng cuộc trò chuyện này để phân loại ?. – tumbleweed

+0

tôi tất cả đã sẵn sàng biết rằng ví dụ với SVM ý tưởng cơ bản để phân loại là: 'từ sklearn nhập khẩu svm s = svm.SVC() lables = [label1, LABEL2] s.fit (training_data, nhãn)' Làm thế nào có thể tôi trình bày một tập tin 'arff' vào một thuật toán phân loại? – tumbleweed

+0

Bạn có thể phân tích cú pháp điểm TF-IDF từ tệp .arff và sử dụng nó trong sklearn không? –

6

Tôi thấy rằng scipy has a loader for arff files để tải chúng dưới dạng mảng bản ghi có khối lượng. Tôi không chắc chắn 100% rằng những mảng đó phù hợp để tiêu thụ trực tiếp bằng cách tìm hiểu nhưng điều đó sẽ giúp bạn bắt đầu.

+0

Bạn có nghĩ rằng tôi sẽ cần phải phân tích cú pháp các mảng numpy? ... Những loại tiền xử lý tôi sẽ cần phải làm để nuôi một số thuật toán phân loại trong scikit-tìm hiểu? – tumbleweed

2

Thực hiện theo renatopp của: giả dữ liệu của bạn là tập dữ liệu iris, cần có 5 chiều với người cuối cùng là cột nhãn lớp.

s = svm.SVC() 
data_input = data[:,0:4] 
labels = data[:,4] # this is the class column 
s.fit(data_input, labels) 

Tôi nghĩ đây là điều bạn muốn.

Các vấn đề liên quan