Thao tác chập khi thực hiện khi có nhiều kênh ở lớp đầu vào? (ví dụ: RGB)Mạng nơron liên kết - Nhiều kênh
Sau khi thực hiện một số đọc về kiến trúc/triển khai CNN, tôi hiểu rằng mỗi nơ-ron trong bản đồ tính năng tham chiếu pixel NxM của hình ảnh được xác định bằng kích thước hạt nhân. Mỗi điểm ảnh sau đó được xác định bởi bản đồ tính năng học tập trọng lượng NxM (hạt nhân/bộ lọc), tổng hợp và nhập vào một hàm kích hoạt. Đối với một hình ảnh tỷ lệ màu xám đơn giản, tôi hình dung hoạt động đó sẽ tuân theo mã giả sau đây:
for i in range(0, image_width-kernel_width+1):
for j in range(0, image_height-kernel_height+1):
for x in range(0, kernel_width):
for y in range(0, kernel_height):
sum += kernel[x,y] * image[i+x,j+y]
feature_map[i,j] = act_func(sum)
sum = 0.0
Tuy nhiên tôi không hiểu cách mở rộng mô hình này để xử lý nhiều kênh. Có ba tập hợp trọng lượng riêng biệt được yêu cầu cho mỗi bản đồ tính năng, được chia sẻ giữa mỗi màu không?
Tham chiếu phần 'Shared Weights' của hướng dẫn này: http://deeplearning.net/tutorial/lenet.html Mỗi nơron trong bản đồ tính năng tham chiếu lớp m-1 với màu được tham chiếu từ các nơron riêng biệt. Tôi không hiểu mối quan hệ họ thể hiện ở đây. Các hạt nhân hoặc hạt nhân của nơron có phải là lý do tại sao chúng tham chiếu các phần riêng biệt của hình ảnh không?
Dựa trên ví dụ của tôi, có vẻ như một hạt nhân nơron đơn lẻ chỉ dành riêng cho một vùng cụ thể trong hình ảnh. Tại sao họ chia thành phần RGB trên một số vùng?
Tôi đang bỏ phiếu để đóng câu hỏi này là không có chủ đề vì nó thuộc về stats.stackexchange – jopasserat