Chiến lược chung tốt nhất để nhóm các mục bằng cách sử dụng nhiều tiêu chí

Tôi có một vấn đề thực tế đơn giản, thực tế mà tôi muốn giải quyết bằng cách sử dụng phương pháp tiếp cận OO. Đĩa cứng của tôi là một mớ hỗn độn. Tôi có 1.500.000 tệp, trùng lặp, hoàn thành các thư mục trùng lặp, v.v ...Chiến lược chung tốt nhất để nhóm các mục bằng cách sử dụng nhiều tiêu chí

Bước đầu tiên, là phân tích tất cả các tệp vào cơ sở dữ liệu của tôi. Không có vấn đề cho đến nay, bây giờ tôi đã nhận được rất nhiều mục tốt đẹp mà là loại "nhóm tự nhiên". Ví dụ cho nhóm đơn giản này có thể thu được sử dụng các truy vấn đơn giản như:

Hãy cho tôi tất cả các file lớn hơn 100MB
Hiển thị tất cả các file cũ quá 3 ngày
Hãy cho tôi tất cả các file có đuôi docx

Nhưng bây giờ giả sử tôi muốn tìm các nhóm có ý nghĩa tự nhiên hơn một chút. Có những chiến lược khác nhau cho điều này, tùy thuộc vào "trường hợp sử dụng".

Giả sử tôi có thói quen xấu khi đặt tất cả các tệp đã tải xuống đầu tiên trên màn hình. Sau đó, tôi trích xuất chúng vào thư mục thích hợp, mà không cần xóa tệp ZIP luôn. Tôi di chuyển chúng vào một thư mục "gác mái". Đối với hệ thống, để tìm nhóm tệp này theo phương thức tìm kiếm theo định hướng thời gian, có thể kết hợp với "kiểm tra xem ZIP có giống thư mục X không" sẽ phù hợp.

Giả sử một thói quen xấu là sao chép tác phẩm, có một số thư mục mà "các tập tin sạch" được đặt tại một cấu trúc đẹp, và một thư mục lộn xộn. Bây giờ thư mục sạch sẽ của tôi có 20 phòng trưng bày hình ảnh, thư mục lộn xộn của tôi có 5 bản sao và 1 thư viện mới. Một người sử dụng có thể dễ dàng xác định logic này bằng cách nhìn thấy "Ồ, đó là tất cả chỉ là bản sao, đó là một cái mới, vì vậy tôi đặt cái mới trong thư mục sạch và thùng rác tất cả các bản sao".

Vì vậy, bây giờ để có được điểm:

Những sự kết hợp của chiến lược hoặc mẫu mà bạn sẽ sử dụng để giải quyết một tình huống như vậy. Nếu tôi lọc chuỗi "khó khăn nhất" sẽ giành chiến thắng, và tôi không có ý tưởng làm thế nào để cho hệ thống "thử nghiệm" cho sự kết hợp phù hợp. Và nó dường như với tôi nó là nhiều hơn thì chỉ lọc. Nhóm động của nó bằng cách kết hợp nhiều tiêu chí để tìm nhóm "tốt nhất".

Một cách tiếp cận rất thô sẽ là:

Ban đầu, tất cả các file đều bình đẳng
Đầu tiên không quá "tốt" nhóm, là thư mục
Nếu bạn là một người lớn, thư mục sạch, bạn kiếm điểm (tên phân phối đồng đều)
Nếu tất cả các tệp có cùng ngày tạo, bạn có thể được "tự động"
Nếu bạn là con của Program-Files, tôi không quan tâm đến bạn tất cả
Nếu tôi di chuyển bạn, nhóm A, vào nhóm C, điều này sẽ cải thiện "entropy"

Các mẫu tốt nhất phù hợp với tình huống này là gì. Chiến lược, bộ lọc và đường ống, "Grouping" .. Mọi bình luận đều được chào đón!

Chỉnh sửa trong reacation để câu trả lời:

Phương pháp gắn thẻ: Tất nhiên, gắn thẻ vượt qua tâm trí của tôi. Nhưng tôi vẽ đường ở đâu. Tôi có thể tạo các loại thẻ khác nhau, như InDirTag, CreatedOnDayXTag, TopicZTag, AuthorPTag. Các thẻ này có thể được cấu trúc trong một chế độ hirarchy, nhưng câu hỏi làm thế nào để nhóm sẽ vẫn còn. Nhưng tôi sẽ đưa ra một số suy nghĩ và thêm thông tin chi tiết của tôi tại đây ..

Nhận xét trì hoãn: Vâng, có vẻ như vậy. Nhưng các tập tin chỉ là ví dụ đơn giản nhất mà tôi có thể đưa ra (và có liên quan nhất vào lúc này). Nó thực sự là một phần của bức tranh lớn hơn về nhóm dữ liệu liên quan theo các cách năng động. Có lẽ tôi nên giữ cho nó trừu tượng hơn, để nhấn mạnh điều này: Tôi là KHÔNG tìm kiếm gắn thẻ tệp công cụ hoặc công cụ tìm kiếm, nhưng một thuật toán hoặc mẫu để tiếp cận vấn đề này ... (hoặc tốt hơn, ý tưởng , giống như gắn thẻ)

Chris

Nguồn

2008-10-05 Christian

tôi không có một giải pháp (và rất thích nhìn thấy một), nhưng tôi có thể đề nghị giải nén dữ liệu từ các tập tin của bạn bên cạnh những tên rõ ràng, kích thước và thời gian.

siêu dữ liệu trong băng như thẻ MP3 ID3, thông tin phiên bản cho EXEs/DLL, tiêu đề HTML và từ khóa, Thông tin tóm tắt cho tài liệu Office, v.v. Ngay cả tệp hình ảnh cũng có siêu dữ liệu thú vị. Một băm của toàn bộ nội dung sẽ giúp tìm kiếm các bản sao.
siêu dữ liệu ngoài băng như có thể được lưu trữ trong luồng dữ liệu thay thế NTFS - ví dụ: những gì bạn có thể chỉnh sửa trong tab Tóm tắt cho các tệp không phải của Office
trình duyệt của bạn giữ thông tin về nơi bạn đã tải xuống tệp (mặc dù Opera không giữ tệp đó lâu), nếu bạn có thể đọc.

Nguồn

2008-10-05 13:40:22

Bạn đang procrastinating. Dừng lại, và dọn dẹp đống lộn xộn của bạn. Nếu nó thực sự lớn, tôi khuyên các chiến thuật sau đây:

Tạo một bản sao của tất cả những thứ trên ổ đĩa của bạn trên một ổ đĩa ngoài (USB hoặc bất cứ điều gì)
Đừng cài đặt một sạch hệ thống của bạn
Như ngay sau khi bạn tìm thấy bạn cần một cái gì đó, lấy nó từ bản sao của bạn, và đặt nó ở một vị trí được xác định rõ ràng
Sau 6 tháng, vứt bỏ ổ đĩa ngoài của bạn. Bất cứ điều gì ở đó không thể là quan trọng.

Bạn cũng có thể cài đặt Google Desktop, không làm sạch mớ hỗn độn của bạn, nhưng ít nhất cho phép bạn tìm kiếm hiệu quả.

Nếu bạn muốn ngăn điều này xảy ra trong tương lai, bạn phải thay đổi cách sắp xếp mọi thứ trên máy tính.

Hy vọng điều này sẽ hữu ích.

Nguồn

2008-10-05 13:40:32 Rolf

Cảm ơn mẹ;) Chỉ đùa thôi - tình yêu khó khăn cũng là một điều tốt! –

Bạn bị sốt và toa thuốc duy nhất là Tag Cloud! Bạn vẫn sẽ phải dọn dẹp mọi thứ, nhưng với các công cụ như TaggCloud hoặc Tag2Find bạn có thể sắp xếp các tệp của mình theo dữ liệu meta thay vì vị trí trên ổ đĩa.Tag2Find sẽ xem một phần, và khi bất cứ thứ gì được lưu vào phần chia sẻ, một popup sẽ xuất hiện và yêu cầu bạn gắn thẻ cho tập tin đó.

Bạn cũng sẽ nhận được Google Desktop.

Nguồn

2008-10-05 13:57:10

Chiến lược chung tốt nhất để nhóm các mục bằng cách sử dụng nhiều tiêu chí

Trả lời

Các vấn đề liên quan