Tôi có một tệp txt gồm 50GB chuỗi ngẫu nhiên, trong đó tôi muốn đếm số lần xuất hiện của chuỗi con trong tệp đó .. nhiều lần, cho các số khác nhau không được xác định trước ngẫu nhiên.Đếm xác suất bằng Python
Tôi đã tự hỏi liệu có cách nào khác để tiếp cận vấn đề hay không.
cách xác suất
Cái gì đó như một bộ lọc nở, nhưng thay vì kiểm tra xác suất thành viên, chúng tôi có thể có xác suất đếm. Cấu trúc dữ liệu đó sẽ được sử dụng cho các ước tính số đếm.
khác phương pháp thống kê (?)
Bất kỳ phương pháp giả mà tôi có thể sử dụng để ước tính số lần xuất hiện của một chuỗi trong một file văn bản? Mở để lựa chọn thay thế.
Sẽ rất tuyệt nếu nó có thể được thực hiện trong < = thời gian logarit vì tôi sẽ thực hiện cùng một nhiệm vụ rất nhiều lần.
Tại sao bạn cho rằng bạn không thể sử dụng bộ đếm? Bạn không cần phải chỉ định các khóa trước thời hạn. Ngay cả khi bạn không muốn xử lý toàn bộ tệp, bạn có thể sử dụng bộ đếm để lấy mẫu một phần của nó. – jonrsharpe
@jonrsharpeI bạn đang ở trong đó nhưng tôi quên thêm rằng tôi donnot có 50GB RAM. – RetroCode
Bộ đếm không mất 50GB và bạn không cần giữ toàn bộ tệp trong bộ nhớ cùng một lúc. Bạn có thể đọc từng chút một. Nó hoàn toàn có thể đếm từng nhân vật. – Carcigenicate