Tôi có tệp csv có kích thước [66k, 56k] (hàng, cột). Đó là một ma trận thưa thớt. Tôi biết rằng numpy có thể xử lý kích thước đó một ma trận. Tôi muốn biết dựa trên kinh nghiệm của mọi người, có bao nhiêu tính năng tìm hiểu các thuật toán có thể xử lý thoải mái?Có bao nhiêu tính năng có thể tìm hiểu xử lý?
Trả lời
Phụ thuộc vào trình ước tính. Ở kích thước đó, các mô hình tuyến tính vẫn hoạt động tốt, trong khi SVM có thể sẽ mất mãi mãi để đào tạo (và quên đi các khu rừng ngẫu nhiên vì chúng sẽ không xử lý các ma trận thưa thớt).
Cá nhân tôi đã sử dụng LinearSVC
, LogisticRegression
và SGDClassifier
với ma trận thưa thớt có kích thước khoảng 300k × 3,3 triệu mà không gặp bất kỳ sự cố nào. Xem @ amueller's scikit-learn cheat sheet để chọn ước tính phù hợp cho công việc trong tầm tay.
Tiết lộ đầy đủ: Tôi là nhà phát triển cốt lõi có kiến thức về kiến thức.
Một số mô hình tuyến tính (Regression, SGD, Bayes) có lẽ sẽ là đặt cược tốt nhất của bạn nếu bạn cần đào tạo mô hình của bạn thường xuyên.
Mặc dù trước khi bạn chạy bất kỳ mô hình nào, bạn có thể thử
1) Giảm tính năng này. Có các tính năng trong dữ liệu của bạn có thể dễ dàng bị xóa không? Ví dụ: nếu dữ liệu của bạn là văn bản hoặc xếp hạng, có rất nhiều tùy chọn có sẵn.
2) Phân tích đường cong học tập. Có thể bạn chỉ cần một tập nhỏ dữ liệu của bạn để đào tạo một mô hình, và sau đó bạn chỉ phù hợp với dữ liệu của bạn hoặc tăng độ chính xác nhỏ.
Cả hai cách tiếp cận đều có thể cho phép bạn giảm đáng kể dữ liệu đào tạo cần thiết.
- 1. Có bao nhiêu yêu cầu SQL Server có thể xử lý mỗi giây?
- 2. Có bao nhiêu truy vấn MySql/giây có thể được xử lý bởi máy chủ?
- 3. MySQL có bao nhiêu truy vấn có thể được xử lý mỗi giây
- 4. Có bao nhiêu yêu cầu đồng thời có thể tomcat xử lý theo Mặc định
- 5. Có bao nhiêu yêu cầu song song mà một cá thể Python của Google App Engine có thể xử lý?
- 6. Có bao nhiêu LINQ?
- 7. Tìm hiểu xem có bao nhiêu người sử dụng phần mềm của tôi
- 8. Có bao nhiêu băm SHA256 có thể tính toán máy tính hiện đại?
- 9. Làm thế nào tôi có thể tìm thấy bao nhiêu năng lượng máy tính của tôi đang sử dụng?
- 10. Có bao nhiêu người dùng đồng thời có thể ứng dụng web được xây dựng trong xử lý Meteor.js?
- 11. Tôi có thể tạo bao nhiêu phiên bản System.Timers.Timer? Tôi có thể mở rộng bao xa?
- 12. Có bao nhiêu xử lý Windows đang sử dụng là "quá nhiều"?
- 13. Có bao nhiêu thanh ghi XMM trên bộ xử lý x86 hỗ trợ SSE?
- 14. Từ điển Python tốn bao nhiêu để xử lý?
- 15. Có bao nhiêu mục mà ListView có thể lưu trữ?
- 16. có bao nhiêu khả năng Nhúng trận derby?
- 17. Có bao nhiêu yêu cầu mongodb xử lý trước khi sharding là cần thiết?
- 18. Có bao nhiêu lõi 'CUDA' của mỗi bộ xử lý GPU?
- 19. Có bao nhiêu lõi bộ xử lý .NET scheduler hỗ trợ
- 20. Có bao nhiêu tham số chức năng quá nhiều?
- 21. Có thể có bao nhiêu cạnh trong DAG?
- 22. Có thể có bao nhiêu kết nối ổ cắm?
- 23. Mẫu thích hợp để xử lý Các đối tượng có thể đếm được với lợi nhuận là bao nhiêu?
- 24. Có bao nhiêu máy ảnh USB có thể được truy cập bởi một máy tính
- 25. Tôi có thể sử dụng bao nhiêu Java với GWT?
- 26. Cho số n, tìm hiểu xem có bao nhiêu số có chữ số 2 trong khoảng 0 ... n
- 27. có bao nhiêu múi giờ?
- 28. Có bao nhiêu phương pháp có thể một lớp C# có
- 29. Tốc độ nén tối đa về mặt lý thuyết có thể là bao nhiêu?
- 30. Có bao nhiêu lõi CPU có dyno heroku?
Tác vụ tôi đang làm là hồi quy. Nhưng sẽ rất hữu ích khi biết cách sklearn xử lý dữ liệu chiều cao nói chung. – viper