2015-11-18 13 views
7

Tôi có dữ liệu của rất nhiều sinh viên đã được chọn bởi một số trường đại học dựa trên điểm số của họ. Iam mới để học máy. Tôi có thể có một số gợi ý làm thế nào tôi có thể thêm Azure Machine Learning cho dự đoán cao đẳng mà họ có thể nhận được dựa trên nhãn hiệu của họĐề xuất học máy

Trả lời

4

Ngoài hồi quy logistic, như đề xuất của @neerajkh, tôi cũng sẽ thử One vs All classifiers. Phương pháp này sử dụng để làm việc rất tốt trong các vấn đề đa lớp (tôi cho rằng bạn có nhiều đầu vào, đó là dấu hiệu của sinh viên) và nhiều kết quả đầu ra (các trường cao đẳng khác nhau).

Để triển khai một và tất cả thuật toán, tôi sẽ sử dụng Support Vector Machines (SVM). Đây là một trong những thuật toán mạnh mẽ nhất (cho đến khi học tập sâu vào hiện trường, nhưng bạn không cần học tập sâu ở đây)

Nếu bạn có thể xem xét việc thay đổi khung, tôi khuyên bạn nên sử dụng thư viện python. Trong python nó rất đơn giản để tính toán rất rất nhanh vấn đề bạn đang phải đối mặt.

+1

câu trả lời tuyệt vời tôi nghĩ! –

0

Giữ phù hợp với các đề xuất của các áp phích khác về sử dụng phân loại nhiều lớp, bạn có thể sử dụng mạng thần kinh nhân tạo (ANNs)/perceptron đa lớp để thực hiện việc này. Mỗi nút đầu ra có thể là một trường đại học và vì bạn sẽ sử dụng hàm chuyển đổi sigmoid (logistic), đầu ra cho mỗi nút có thể được xem trực tiếp như xác suất của trường đó chấp nhận một sinh viên cụ thể (khi cố gắng dự đoán).

0

Tại sao bạn không thử hồi quy softmax?

Trong điều kiện cực kỳ đơn giản, Softmax lấy đầu vào và tạo phân phối xác suất của đầu vào thuộc về từng lớp của bạn. Vì vậy, nói cách khác dựa trên một số đầu vào (cấp trong trường hợp này), mô hình của bạn có thể xuất phân phối xác suất đại diện cho "cơ hội" một sudent nhất định phải được chấp nhận cho mỗi trường đại học.

0

Tôi biết đây là một chuỗi cũ nhưng tôi sẽ tiếp tục và thêm 2 xu nữa.

Tôi khuyên bạn nên thêm nhiều lớp, phân loại nhiều nhãn. Điều này cho phép bạn tìm thấy nhiều hơn một trường đại học cho một sinh viên. Tất nhiên điều này dễ làm hơn với ANN nhưng khó cấu hình hơn nhiều (nói với cấu hình của mạng; số nút/nút ẩn hoặc thậm chí chức năng kích hoạt cho vấn đề đó).

Phương pháp dễ nhất để thực hiện việc này là @Hoap Humanoid gợi ý là sử dụng Bộ phân loại véc tơ hỗ trợ.

Để thực hiện bất kỳ phương pháp nào trong số những phương pháp này, hãy cho rằng bạn phải tập hợp dữ liệu đa dạng. Tôi không thể nói số điểm dữ liệu bạn cần mà bạn phải thử nghiệm nhưng độ chính xác của mô hình phụ thuộc vào số điểm dữ liệu và tính đa dạng của nó.

0

Điều này rất chủ quan. Chỉ cần áp dụng bất kỳ thuật toán nào phân loại thành các danh mục sẽ không phải là một ý tưởng hay. Nếu không thực hiện phân tích dữ liệu thăm dò và kiểm tra những điều sau đây bạn không thể chắc chắn về một làm phân tích dự đoán, ngoài giá trị mất tích:

  1. biến định lượng và định tính.
  2. Phân phối đơn biến, Đa biến và đa biến.
  3. Mối quan hệ biến đối với biến trả lời (đại học) của bạn.
  4. Tìm kiếm các ngoại lệ (đa biến và đơn biến).
  5. Chuyển đổi biến bắt buộc.
  6. Có thể là biến Y được chia nhỏ thành các phần cho vị trí ví dụ, ví dụ như ứng cử viên có thể là một phần của các trường Cao đẳng ở California hoặc New York hay không. Nếu có cơ hội cao hơn của California, thì trường đại học nào. Bằng cách này bạn có thể nắm bắt các mối quan hệ tuyến tính + phi tuyến tính.

Đối với người học cơ sở bạn có thể phù hợp với mô hình hồi quy softmax hoặc 1 vs tất cả các hồi qui logistic mà không thực sự quan trọng rất nhiều và Toán cho mối quan hệ phi tuyến tính. Tôi cũng sẽ làm K-nn và K-means để kiểm tra các nhóm khác nhau trong dữ liệu và quyết định người học dự đoán.

Tôi hy vọng điều này có ý nghĩa!

1

randomforesttrees sử dụng và thức ăn thuật toán ML này để OneVsRestClassifer mà là một lớp phân loại đa

Các vấn đề liên quan