2015-04-20 32 views
10

Tôi đang triển khai CNN với Theano. Trong bài báo, tôi phải thực hiện quá trình tiền xử lý hình ảnh này trước khi đào tạo CNNTrừ trung bình từ hình ảnh

We extracted RGB patches of 61x61 dimensions associated with each poselet activation, subtracted the mean and used this data to train the convnet model shown in Table 1 

Bạn có thể cho tôi biết ý nghĩa của từ "trừ trung bình" không? Hãy cho tôi biết nếu các bước này là chính xác (đó là những gì tôi hiểu) 1) Tính trung bình cho Kênh đỏ, Kênh xanh và Kênh xanh cho toàn bộ hình ảnh 2) Đối với mỗi pixel, trừ giá trị màu đỏ trung bình của kênh đỏ, từ màu xanh lá cây giá trị trung bình của kênh màu xanh lá cây và tương tự cho kênh màu xanh 3) Có đúng là có giá trị âm hay tôi có sử dụng abs không?

Cảm ơn tất cả !!

Trả lời

6

Bạn nên đọc giấy cẩn thận, nhưng những gì là có thể xảy ra nhất là họ có nghĩa trung bình của các bản vá lỗi, vì vậy bạn có N ma trận 61x61 pixel, tương đương với của một vector có độ dài 61^2 (nếu có ba kênh sau đó 3*61^2). Những gì họ làm - họ có nghĩa là tính toán trung bình đơn giản của từng chiều, do đó, họ tính toán trung bình trên các vectơ N này đối với mỗi kích thước của 3*61^2. Kết quả là họ có được một nghĩa vector chiều dài 3*61^2 (hoặc ma trận bình/nghĩa vá nếu bạn thích) và họ trừ nó từ tất cả các bản vá lỗi N. Các bản vá kết quả sẽ có giá trị âm, nó hoàn toàn tốt, bạn không được lấy giá trị abs, mạng nơron thích loại dữ liệu này.

+0

Các giấy tờ này là http://arxiv.org/pdf/1407.0717v1.pdf Tôi có 6 triệu hình ảnh và tôi không nghĩ rằng ý nghĩa được đề cập là về các bản vá, nhưng về hình ảnh đơn. Tất nhiên có thể là ý tưởng của bạn – sakuragi

6

Tôi giả định giá trị trung bình được đề cập trong bài báo là giá trị trung bình trên tất cả các hình ảnh được sử dụng trong bộ huấn luyện (được tính riêng cho từng kênh).

Một số dấu hiệu cho thấy:

Đây tất nhiên là bằng chứng gián tiếp vì tôi không thể giải thích lý do tại sao điều này xảy ra. Trong thực tế, tôi vấp phải câu hỏi này trong khi cố gắng tìm ra chính xác điều đó.

// EDIT:

Trong lúc này tôi tìm thấy một source xác nhận tuyên bố của tôi (làm nổi bật thêm bởi tôi):

Có ba hình thức phổ biến của dữ liệu tiền xử lý một ma trận dữ liệu X [. ..]

Phép trừ trung bình là hình thức tiền xử lý phổ biến nhất.Nó liên quan đến việc trừ trung bình trên mọi đối tượng địa lý riêng lẻ trong số dữ liệu và có cách giải thích hình học tập trung vào đám mây dữ liệu xung quanh nguồn gốc theo mọi chiều. Trong numpy, hoạt động này sẽ được thực hiện như sau: X - = np.mean (X, axis = 0). Với hình ảnh cụ thể, để thuận tiện, có thể trừ một giá trị đơn lẻ từ tất cả các pixel (ví dụ: X - = np.mean (X)) hoặc để thực hiện riêng biệt trên ba kênh màu.

Như chúng ta có thể thấy, toàn bộ dữ liệu được sử dụng để tính giá trị trung bình.

+0

Liệu có ý nghĩa khi sử dụng trung bình trên tất cả hình ảnh trong tập huấn luyện? Chúng ta nên làm điều đó cho mỗi pixel của bất kỳ giá trị RGB của hình ảnh riêng lẻ nào. – Zangetsu

+0

Tôi đã cung cấp liên kết và trích dẫn vì ý nghĩa của việc sử dụng toàn bộ tập dữ liệu trong bản chỉnh sửa của tôi. – Zakum

Các vấn đề liên quan