Tôi có một kịch bản mà tôi có hàng nghìn trường hợp dữ liệu. Bản thân dữ liệu được biểu diễn dưới dạng một giá trị số nguyên duy nhất. Tôi muốn có thể phát hiện khi một cá thể là một ngoại lệ cực đoan.Kỹ thuật phát hiện bất thường được đề xuất cho kịch bản đơn giản, một chiều?
Ví dụ, với ví dụ dữ liệu sau:
a = 10
b = 14
c = 25
d = 467
e = 12
d
rõ ràng là một sự bất thường, và tôi muốn thực hiện một hành động cụ thể trên cơ sở này.
Tôi rất muốn thử sử dụng kiến thức về miền cụ thể để phát hiện bất thường. Ví dụ, tìm ra khoảng cách từ giá trị trung bình hữu ích và kiểm tra điều đó, dựa trên chẩn đoán. Tuy nhiên, tôi nghĩ rằng nó có lẽ tốt hơn nếu tôi điều tra kỹ thuật phát hiện bất thường tổng quát hơn, mạnh mẽ hơn, có một số lý thuyết đằng sau chúng.
Vì kiến thức làm việc của tôi về toán học bị giới hạn, tôi hy vọng tìm được một kỹ thuật đơn giản, chẳng hạn như sử dụng độ lệch chuẩn. Hy vọng rằng bản chất duy nhất của dữ liệu sẽ làm cho vấn đề này khá phổ biến, nhưng nếu cần thêm thông tin cho kịch bản, vui lòng để lại nhận xét và tôi sẽ cung cấp thêm thông tin.
Chỉnh sửa: nghĩ rằng tôi muốn thêm thông tin về dữ liệu và những gì tôi đã cố gắng trong trường hợp câu trả lời chính xác hơn dữ liệu khác.
Giá trị tất cả đều dương và khác 0. Tôi hy vọng rằng các giá trị sẽ tạo thành một phân phối bình thường. Kỳ vọng này dựa trên trực giác của miền thay vì thông qua phân tích, nếu đây không phải là điều xấu để giả định, vui lòng cho tôi biết. Về mặt phân cụm, trừ khi cũng có các thuật toán chuẩn để chọn giá trị k, tôi sẽ thấy khó có thể cung cấp giá trị này cho thuật toán k-Means.
Hành động tôi muốn đưa ra ngoài/dị thường là trình bày cho người dùng và đề xuất rằng điểm dữ liệu về cơ bản bị xóa khỏi tập dữ liệu (tôi sẽ không hiểu cách họ thực hiện điều đó, nhưng nó có ý nghĩa đối với miền của tôi), do đó nó sẽ không được sử dụng làm đầu vào cho một chức năng khác.
Cho đến nay tôi đã thử ba sigma và kiểm tra ngoại lệ IQR trên tập dữ liệu hạn chế của tôi. Các giá trị cờ IQR không đủ mạnh, ba sigma chỉ ra các trường hợp phù hợp hơn với trực giác của tôi về miền.
Thông tin về thuật toán, kỹ thuật hoặc liên kết đến tài nguyên để tìm hiểu về trường hợp cụ thể này là câu trả lời hợp lệ và chào mừng.
Kỹ thuật phát hiện bất thường được đề xuất cho dữ liệu đơn giản, một chiều là gì?
Đừng đánh giá thấp giá trị của tri thức khoa học. Thủ tục hộp đen hiếm khi là con đường để đi. Cố gắng thể hiện kiến thức khoa học của bạn về số liệu thống kê đơn giản. – Tristan
@Tristan: có phải bạn đang nói bạn nghĩ rằng tôi nên cố gắng đưa ra một mô hình có một số nền tảng trong thống kê, nhưng cuối cùng là cụ thể cho miền vấn đề của tôi? – Grundlefleck
Tôi chỉ nói rằng kiến thức của bạn về những gì là hợp lý (tức là, mô hình tạo ra dữ liệu tốt và dữ liệu xấu) là thông tin quan trọng. Bạn nên thiết kế một quy trình, chẳng hạn như sử dụng IQR, được thúc đẩy bởi kiến thức khoa học của bạn về miền. Tôi không thích những thứ như k-means bởi vì nó không có động cơ tốt và vốn không linh hoạt, theo quan điểm của tôi. – Tristan