Tôi đang viết một hệ thống nhỏ trong Java, trong đó tôi trích xuất tính năng n-gram từ tập tin văn bản và sau đó cần phải thực hiện quá trình lựa chọn Feature để chọn hầu hết các tính năng discriminators.Thực hành tốt nhất để giữ danh sách lớn các dữ liệu trong Java
Quá trình khai thác tính năng cho một tập tin duy nhất quay trở lại một bản đồ, trong đó có cho mỗi tính năng độc đáo, lần xuất hiện của nó trong file. Tôi hợp nhất tất cả các bản đồ của tệp (Bản đồ) vào một Bản đồ có chứa Tần suất tài liệu (DF) của tất cả các tính năng độc đáo được trích xuất từ tất cả các tệp. Bản đồ hợp nhất có thể chứa trên 10.000.000 mục nhập.
Hiện tại quá trình trích xuất tính năng đang hoạt động tốt và tôi muốn thực hiện Lựa chọn tính năng mà tôi cần triển khai Thông tin tăng hoặc tỷ lệ tăng. Tôi sẽ phải sắp xếp Bản đồ đầu tiên, thực hiện tính toán và lưu kết quả để cuối cùng có được danh sách (đối với mỗi đối tượng, điểm Lựa chọn tính năng)
Câu hỏi của tôi là: Thực hành tốt nhất và tốt nhất là gì cấu trúc dữ liệu để giữ số lượng lớn dữ liệu này (~ 10M) và thực hiện tính toán?
Hãy xem HashMap. – Hungry