Tôi có một tập dữ liệu lớn với hơn 250.000 quan sát và tôi muốn sử dụng gói TraMineR
để phân tích. Đặc biệt, tôi muốn sử dụng các lệnh seqtree
và seqdist
, hoạt động tốt khi tôi ví dụ sử dụng mẫu phụ có 10.000 quan sát. Giới hạn máy tính của tôi có thể quản lý là khoảng 20.000 quan sát.Tính toán song song cho TraMineR
Tôi muốn sử dụng tất cả các quan sát và tôi có quyền truy cập vào một siêu máy tính có thể thực hiện điều đó. Tuy nhiên, điều này không giúp ích nhiều cho quá trình chạy trên một lõi đơn. Vì vậy, câu hỏi của tôi, là nó có thể áp dụng kỹ thuật tính toán song song với các lệnh được đề cập ở trên? Hay có cách nào khác để tăng tốc quá trình này? Bất kỳ trợ giúp sẽ được đánh giá cao!
Ba câu trả lời sau có giúp ích không? http://stackoverflow.com/questions/17085780/how-to-use-discrepancy-analysis-with-traminer-and-aggregated-sequence-data và http://stackoverflow.com/questions/15929936/problem-with- dữ liệu lớn trong quá trình tính toán-of-sequence-distance-using-tramine và http://stats.stackexchange.com/questions/43540/how-to-randomly-select-5-of-the-sample –
Kính gửi Matthias , cảm ơn câu trả lời của bạn. Tôi đã sử dụng quy trình mẫu được mô tả trong các liên kết của bạn. Những gì tôi thực sự tìm kiếm là một cách để sử dụng nhiều lõi để tăng tốc độ tính toán khoảng cách để áp dụng nó cho toàn bộ tập dữ liệu trên siêu máy tính. Tôi đã xem xét một số gói cho phép bạn thực hiện điều đó, nhưng chúng không hoạt động với TraMineR. Nhưng tôi đoán chạy nhiều subsamples là tốt là tốt. Cảm ơn một lần nữa. – Flow
Các giải pháp mà tôi đã đề xuất là: tập hợp chuỗi giống nhau, sử dụng 'seqdist (method =" OMopt ")', thay đổi độ chi tiết thời gian (xem tại đây: http://stats.stackexchange.com/questions/43601/modifying-the-time -granularity-of-a-state-sequence) để có các chuỗi giống hệt nhau hơn. Bạn đang đối mặt với giới hạn nào? Thời gian CPU hoặc giới hạn bộ nhớ? –