2012-10-24 68 views
11

Tôi đã đọc một số giấy tờ liên quan đến dữ liệu không phải là iid. Dựa trên Wikipedia, tôi biết dữ liệu iid (phân phối độc lập và giống hệt) là gì nhưng vẫn còn nhầm lẫn về không phải iid. Tôi đã làm một số nghiên cứu nhưng không thể tìm thấy một định nghĩa rõ ràng và ví dụ về nó. Có ai có thể giúp tôi với cái này?Ví dụ về dữ liệu không phải là iốt

Trả lời

14

Từ wikipedia iid:

"độc lập và phân phối hệt" ngụ ý một yếu tố trong chuỗi là độc lập của các biến ngẫu nhiên mà đến trước khi nó. Theo cách này, một chuỗi IID khác với chuỗi Markov, trong đó phân bố xác suất cho biến ngẫu nhiên thứ n là hàm của biến ngẫu nhiên trước đó trong chuỗi (đối với chuỗi Markov thứ tự đầu tiên).

Ví dụ tổng hợp đơn giản, giả sử bạn có xúc xắc đặc biệt với 6 khuôn mặt. Nếu lần cuối cùng giá trị khuôn mặt là 1, lần sau bạn ném nó, bạn sẽ vẫn nhận được một mệnh giá 1 với 0,5 xác suất và giá trị khuôn mặt là 2,3,4,5,6 mỗi với 0,1 xác suất. Tuy nhiên, nếu lần cuối cùng giá trị khuôn mặt không phải là 1, bạn sẽ có được xác suất bằng nhau của mỗi khuôn mặt. Ví dụ:

p(face(0) = k) = 1/6, k = 1,2,3,4,5,6 -- > initial probability at time 0. 
p(face(t) = 1| face(t-1) = 1) = 0.5, p(face(t) = 1| face(t-1) != 1) = 1/6 
p(face(t) = 2| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6 
p(face(t) = 3| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6 
p(face(t) = 4| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6 
p(face(t) = 5| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6 
p(face(t) = 6| face(t-1) = 1) = 0.1, p(face(t) = 1| face(t-1) != 1) = 1/6 
face(t) stands for the face value of t-th throw. 

Đây là ví dụ khi phân bố xác suất cho biến ngẫu nhiên thứ n (kết quả của lần ném thứ n) là hàm của biến ngẫu nhiên trước đó trong chuỗi.

Tôi thấy dữ liệu Không giống hệt và Không độc lập (ví dụ: Markovian) trong một số trường hợp học máy, có thể được coi là ví dụ không phải là iid.

  • Học trực tuyến với dữ liệu trực tuyến, khi phân phối các ví dụ đến thay đổi theo thời gian: các ví dụ không được phân phối giống hệt nhau. Giả sử bạn có một mô-đun tìm hiểu để dự đoán tỷ lệ nhấp của các quảng cáo trực tuyến, việc phân phối các cụm từ truy vấn đến từ người dùng sẽ thay đổi trong năm phụ thuộc vào xu hướng theo mùa. Các điều khoản truy vấn vào mùa hè và trong mùa Giáng sinh nên có phân phối khác nhau.

  • Học tập tích cực, trong đó nhãn cho dữ liệu cụ thể được yêu cầu bởi người học: giả thiết độc lập cũng bị vi phạm.

  • Tìm hiểu/suy luận với mô hình đồ họa. Các biến được kết nối qua các mối quan hệ phụ thuộc.

0

Một cách rất lượn sóng (vì tôi cho rằng bạn đã đọc định nghĩa kỹ thuật), tức là có nghĩa là nếu bạn có một loạt các giá trị, thì tất cả các hoán vị của các giá trị đó đều có xác suất bằng nhau. Vì vậy, nếu tôi có 3,6,7 thì xác suất này bằng với xác suất của 7,6,3 bằng 6,7,3 v.v ... Nghĩa là, mỗi giá trị không phụ thuộc vào các giá trị khác trong chuỗi.

Ví dụ truy cập, hãy tưởng tượng trình tự x trong đó mỗi phần tử x_i là phần tử cao hơn hoặc thấp hơn phần tử trước đó, với cơ hội 50-50. Sau đó, một chuỗi có thể là 1,2,3,2,3,4,3,2. Rõ ràng là có một số hoán vị của chuỗi này không phải là equiprobable: đặc biệt, các chuỗi bắt đầu 1,4,... có xác suất bằng không. Thay vào đó, bạn có thể xem xét các cặp của biểu mẫu x_i | x_i-1 nếu muốn.

0

Theo nghĩa đen, non iid phải đối diện với iid theo một trong hai cách, independent hoặc identical.

Vì vậy, ví dụ, nếu một đồng xu là lộn, chúng ta hãy X là biến ngẫu nhiên của các sự kiện mà kết quả là đuôi, Y là biến ngẫu nhiên của các sự kiện kết quả là người đứng đầu, sau đó XY chắc chắn phụ thuộc. Chúng có thể được quyết định bởi nhau.

Đối với số không identical, khi phân phối của hai biến ngẫu nhiên không giống nhau, chúng có thể được gọi là không giống nhau.

Do đó, một trong các trường hợp xảy ra, bạn có thể nhận được ví dụ về trường hợp non iid.

1

Đây là ví dụ về sự cố không độc lập. Định nghĩa sự cố: Giả sử bạn có hình ảnh 2D một đốm màu trong đó. Bạn muốn xây dựng một lớp bản vá lỗi hoạt động với các bản vá hình ảnh 5X5 làm đầu vào và phân loại pixel trung tâm thành "ranh giới" hoặc "không phải là ranh giới". Yêu cầu của bạn là kết quả phân loại của mỗi miếng vá xác định một đường viền liên tục (dày một pixel) mà theo dõi xung quanh biên giới của đốm màu chính xác. Về cơ bản, một máy dò cạnh. Cũng giả sử rằng một lỗi nhỏ của thất lạc ranh giới bởi chỉ một vài điểm ảnh không quan trọng, tuy nhiên sự liên tục của đường viền ranh giới không quan trọng (nó không nên có bất kỳ phá vỡ).

Cách thức này không độc lập: Ví dụ1: Giả sử bạn có đường bao giải pháp tốt A. Một giải pháp hợp lệ khác, B, chỉ là A chuyển sang bên phải 2 pixel, lưu ý rằng hầu hết các phân loại tại pixel mức độ khác nhau nhưng giải pháp vẫn hợp lệ. Ví dụ2: Giả sử bạn nhận được giải pháp hợp lệ A ngoại trừ chỉ một pixel đầu ra được dịch chuyển ngay 2 pixel để tạo đầu ra C. Lần này bạn có đường bao bị hỏng và giải pháp không hợp lệ. Điều này chứng tỏ cách trình phân loại cần biết về các câu trả lời cho các ví dụ pixel lân cận khác để xác định xem một pixel cụ thể có nên được phân loại là ranh giới hay không.

Các vấn đề liên quan