Điều này có vẻ như nó phải là một câu hỏi rõ ràng, nhưng các hướng dẫn và tài liệu về danh sách không sắp tới. Nhiều người trong số những vấn đề này xuất phát từ kích thước tuyệt đối của các tập tin văn bản của tôi (hàng trăm MB) và nỗ lực của tôi để đun sôi chúng xuống một cái gì đó quản lý bởi hệ thống của tôi. Kết quả là, tôi đang làm công việc của mình trong phân đoạn và hiện đang cố gắng kết hợp các kết quả.Kết hợp danh sách dữ liệu tần số từ
Tôi có nhiều danh sách tần suất từ (~ 40 trong số đó). Danh sách có thể được thực hiện thông qua Nhập [] hoặc dưới dạng biến được tạo trong Mathematica. Mỗi danh sách xuất hiện như sau và đã được tạo bằng cách sử dụng các lệnh Tally [] và Sort []:
{{"the", 42216}, {"of", 24903}, {"and", 18624 }, {"n", 16850}, {"trong",
16164}, {"de", 14930}, {"a", 14660}, {"đến", 14175}, {"la", 7347 }, {"là", 6030}, {"l", 5981}, {"le", 5735}, < < 51293 >>, {"abattoir", 1}, {"abattement", 1}, {"abattagen", 1}, {"abattage", 1}, {"bị bỏ qua", 1}, {"bỏ qua", 1}, {"abaiss", 1}, {"aback", 1}, {"aase", 1}, {"aaijaut", 1}, {"aaaah", 1}, {"aaa", 1}}
Dưới đây là một ví dụ về tập tin thứ hai:
{{ "the", 30.419}, { "n", 20.414}, { "de", 19.956}, { "của", 16.262} , {"và",
14488}, {"đến", 12726}, {"a", 12635}, {"trong", 11141}, {"la", 10739}, {"et", 9016 }, {"les", 8675}, {"le", 7748}, < < 101032 >>, {"abattement", 1}, {"abattagen", 1}, {"abattage", 1}, { "bị hủy", 1}, {"từ bỏ", 1}, {"abaiss", 1}, {"aback", 1}, {"aase", 1}, {"aaijaut", 1}, { "aaaah", 1}, {"aaa", 1}}
Tôi muốn kết hợp chúng để dữ liệu tần số tổng hợp: tức là nếu tệp thứ hai có 30.419 lần xuất hiện của 'the' và được nối với tệp thứ nhất, nó sẽ trả về rằng có 72.635 lần xuất hiện (và cứ như vậy khi tôi di chuyển thông qua toàn bộ bộ sưu tập).
Câu hỏi liên quan chặt chẽ: http://stackoverflow.com/questions/5143575/aggregating-tally-counters –
Cũng liên quan đến phần nào: http://stackoverflow.com/questions/7749633/time-efficient-partial-inverted -index-building/ –