Sự cố của bạn rơi vào danh mục regression (link). Trong thuật ngữ học máy, bạn có một bộ sưu tập gồm features (link) (mà bạn liệt kê trong câu hỏi của bạn) và bạn có một giá trị mà bạn muốn dự đoán cho các tính năng đó.
Những gì Ted Hopp đã đề xuất về cơ bản là một linear predictor function (link). Đó có thể là một mô hình quá đơn giản cho kịch bản của bạn.
Cân nhắc sử dụng logistic regression (link) cho sự cố của bạn. Đây là cách bạn sẽ sử dụng nó.
1. tạo của bạn mô hình học tập dữ liệu
ngẫu nhiên chọn một số bài đăng trên blog m
khỏi nhóm của 4000. Nó phải là một tập hợp đủ nhỏ để bạn có thể thoải mái xem xét thông qua những bài đăng trên blog m
bằng tay.
Đối với mỗi bài đăng trên blog m
, ghi điểm số "tốt" với số từ 0
đến 1
. Nếu được, bạn có thể nghĩ về điều này khi sử dụng 0, 1, 2, 3, 4
"sao" cho các giá trị 0, 0.25, 0.5, 0.75, 1
.
Bây giờ bạn có m
bài đăng trên blog mà mỗi bài đăng có một tập hợp các tính năng và điểm số.
Bạn có thể mở rộng tùy chọn bộ tính năng để bao gồm các tính năng có nguồn gốc - ví dụ: bạn có thể bao gồm lôgarit của "Số đếm tối đa", "Nhận xét", "Số lượt chia sẻ" và "Số người theo dõi", và bạn có thể bao gồm logarit của số giờ giữa "now" và "Created Time".
2. tìm hiểu mô hình của bạn
Sử dụng độ dốc để tìm mô hình hồi quy logistic phù hợp với tập dữ liệu mô hình học tập của bạn. Bạn nên phân chia tập dữ liệu của mình thành đào tạo, xác thực và kiểm tra để bạn có thể thực hiện các bước tương ứng đó trong quá trình học mô hình.
Tôi sẽ không giải thích thêm về phần này vì internet có đầy đủ chi tiết và đó là quy trình đóng hộp.
liên kết
Wikipedia:
3. áp dụng mô hình của bạn
Sau khi học được mô hình hồi quy logistic của bạn, bây giờ bạn có thể áp dụng nó để dự đoán tỉ số làm thế nào "tốt" một bài đăng blog mới là! Đơn giản chỉ cần tính toán tập hợp các tính năng (và các tính năng có nguồn gốc), sau đó sử dụng mô hình của bạn để ánh xạ các tính năng đó tới một điểm số.
Một lần nữa, internet có đầy đủ các chi tiết cho phần này, đây là một quá trình đóng hộp.
Nếu bạn có bất kỳ câu hỏi nào, hãy đảm bảo hỏi!
Nếu bạn quan tâm đến việc tìm hiểu thêm về học máy, bạn nên cân nhắc tham gia the free online Stanford Machine Learning course on Coursera.org. (Tôi không liên kết với Stanford hoặc Coursera.)
Bỏ phiếu để đóng quá rộng. –