Tôi đang cố triển khai các thuật toán cho dữ liệu 1000 chiều với 200k + datapoints trong python. Tôi muốn sử dụng thư viện gọn gàng, scipy, sklearn, networkx và hữu ích khác. Tôi muốn thực hiện các hoạt động như khoảng cách theo cặp giữa tất cả các điểm và thực hiện phân cụm trên tất cả các điểm. Tôi đã thực hiện các thuật toán làm việc để thực hiện những gì tôi muốn với độ phức tạp hợp lý nhưng khi tôi cố gắng mở rộng chúng cho tất cả dữ liệu của tôi, tôi hết RAM. Tất nhiên tôi làm, tạo ma trận cho khoảng cách cặp đôi trên 200k + dữ liệu mất rất nhiều bộ nhớ.Làm việc với dữ liệu lớn trong python và gumpy, không đủ ram, làm thế nào để lưu một phần kết quả trên đĩa?
Ở đây có bắt: Tôi thực sự muốn làm điều này trên các máy tính không hấp dẫn với một lượng thấp của ram.
Có cách nào khả thi cho tôi để làm công việc này mà không có sự hạn chế của ram thấp. Rằng nó sẽ mất một thời gian lâu hơn thực sự không phải là một vấn đề, miễn là thời gian reqs không đi đến vô cùng!
Tôi muốn có thể đặt thuật toán của mình hoạt động và sau đó quay lại một giờ hoặc năm sau và không bị kẹt vì nó hết RAM! Tôi muốn thực hiện điều này trong python, và có thể sử dụng thư viện numpy, scipy, sklearn và networkx. Tôi muốn để có thể tính toán khoảng cách cặp với tất cả các điểm của tôi vv
Đây có phải là khả thi? Và làm thế nào tôi sẽ đi về nó, những gì tôi có thể bắt đầu đọc trên?
Trân trọng // Mesmer
Câu hỏi của bạn khá mơ hồ và rất rộng. Chúng có kích thước dữ liệu khá bình thường đối với nhiều ứng dụng trong xử lý tín hiệu và học máy. Tôi khuyên bạn nên tìm hiểu về các thuật toán và kỹ thuật được sử dụng trong các trường đó. –
Tôi muốn có thể thực hiện, ví dụ, khoảng cách cặp giữa tất cả các điểm trong ma trận 200.000 x 1000 trong trăn mà không có đủ ram để giữ ma trận toàn bộ khoảng cách trong bộ nhớ. Tôi đang tìm kiếm thông tin về cách để làm điều đó :) vì vậy câu trả lời cụ thể hơn sau đó một mơ hồ "nhìn vào hai lĩnh vực phụ toàn bộ khoa học máy tính" sẽ được hữu ích! – Ekgren
Bạn có thể muốn xem qua [memmap] của numpy (http://docs.scipy.org/doc/numpy/reference/generated/numpy.memmap.html) và có thể là [PyTables] (http: // www. pytables.org) như là một điểm khởi đầu. –