2012-03-04 27 views
7

Tôi có số lượng lớn (100-150) bộ dữ liệu nhỏ (khoảng 1 kbyte). Chúng tôi sẽ gọi những bộ dữ liệu 'tốt' này. Tôi cũng có một số lượng dữ liệu 'xấu' tương tự.Khai thác liên kết với số lượng lớn các tập dữ liệu nhỏ

Bây giờ tôi đang tìm phần mềm (hoặc có lẽ thuật toán) để tìm các quy tắc cho những gì cấu thành tập dữ liệu 'tốt' so với tập dữ liệu 'xấu'.

Điều quan trọng ở đây là khả năng của phần mềm đối phó với nhiều tập dữ liệu thay vì chỉ một bộ dữ liệu lớn.

Giúp đánh giá cao.
Paul.

+0

Tập dữ liệu là gì? bản văn? – amit

+1

Chắc chắn bạn không muốn * phân loại * thay vì khai phá quy tắc kết hợp? –

Trả lời

1

Một cách phổ biến để thực hiện việc này là sử dụng k-nearest neighbor. Ví dụ:

Trích xuất các trường từ tập dữ liệu của bạn - nếu tập dữ liệu của bạn là văn bản, cách phổ biến để trích xuất các trường là sử dụng bag of words.

Lưu trữ "tập huấn luyện" và khi tập dữ liệu mới [không được labled] đến - tìm k hàng xóm gần nhất với nó [theo trường đã trích xuất]. Cho phép tập dữ liệu mới giống như hầu hết các hàng xóm gần nhất [từ tập huấn luyện] của nó.

Một phương pháp phổ biến khác là sử dụng decision tree. Vấn đề với cây quyết định - không đưa ra quyết định quá cụ thể. Thuật toán hiện có có thể sử dụng để tạo cây [heuristically] tốt là ID3

+1

Về cơ bản, bạn có thể áp dụng bất kỳ phương pháp phân loại nào cho vấn đề đó, bao gồm SVM, ANN, kNN, cây quyết định, vịnh ngây thơ, ... – alfa

2

Dường như vấn đề phân loại. Nếu bạn có nhiều tập dữ liệu được gắn nhãn là "tốt" hoặc "xấu", bạn có thể đào tạo trình phân loại để dự đoán liệu tập dữ liệu mới có tốt hay không.

Thuật toán như cây quyết định, k-neighboor gần nhất, SVM, mạng nơron là các công cụ tiềm năng mà bạn có thể sử dụng.

Tuy nhiên, bạn cần phải xác định thuộc tính nào bạn sẽ sử dụng để đào tạo trình phân loại.

Các vấn đề liên quan