5

Điều gì đang xảy ra về mặt toán học khi các đề xuất khu vực được thay đổi kích thước theo các hàm kích hoạt lớp chập cuối cùng? Trong hướng dẫn following về phát hiện đối tượng với CNN đã đề cập về RCNN nhanh. Ở đây họ đã đề cập đến lớp ROI và những gì đang xảy ra. Nhưng tôi không hiểu những gì xảy ra toán học khi thay đổi kích thước các đề xuất khu vực của bạn thành kích hoạt convlon cuối cùng trong mỗi ô.Lớp ROI trong RCnn nhanh là gì?

Trả lời

4

Region-of-lãi (ROI) Pooling:

Nó là một loại lớp tổng hợp, thực hiện max tổng hợp đầu vào (ở đây, bản đồ tính năng convnet) có kích thước không đồng nhất và tạo ra một bản đồ nhỏ có kích thước cố định (nói 7x7). Sự lựa chọn kích thước cố định này là một tham số siêu mạng và được xác định trước.

Mục đích chính của việc tạo nhóm như vậy là tăng tốc độ đào tạo và thời gian thử nghiệm và cũng để đào tạo toàn bộ hệ thống từ đầu cuối đến cuối (theo cách thức chung).

Đó là do việc sử dụng lớp gộp này đào tạo & thời gian thử nghiệm nhanh hơn so với kiến ​​trúc R-CNN ban đầu (vanilla?) Và do đó tên là Fast R-CNN.

dụ đơn giản (từ Region of interest pooling explained by deepsense.io):

Visualization of RoI Pooling

+0

Ở đây, đề xuất khu vực có nghĩa là hình dạng của khu vực trong hình ảnh hoặc phần của hình ảnh có pixel sau đó được nhân với giá trị bộ lọc tối đa? –

5

Lớp ROI (khu vực quan tâm) được giới thiệu trong Fast R-CNN và là trường hợp đặc biệt của lớp tổng hợp kim tự tháp không gian được giới thiệu trong Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition. Chức năng chính của lớp ROI là định hình lại đầu vào với kích thước tùy ý thành một đầu ra có độ dài cố định do ràng buộc kích thước trong các lớp được kết nối hoàn toàn.

Làm thế nào lớp ROI công trình được thể hiện dưới đây:

enter image description here

Trong hình ảnh này, những hình ảnh đầu vào với kích thước tùy ý được đưa vào lớp này trong đó có 3 cửa sổ khác nhau: 4x4 (màu xanh), 2x2 (màu xanh lá cây), 1x1 (xám) để tạo ra kết quả đầu ra với kích thước cố định là 16 x F, 4 x F và 1 x F tương ứng cho F là số lượng bộ lọc. Sau đó, các đầu ra đó được nối vào một vec-tơ để được đưa vào lớp Kết nối hoàn toàn.

+0

bạn có thể xây dựng trên quan điểm "vì kích thước hạn chế trong đầy đủ các lớp kết nối". Vì chúng ta đang cho các giá trị pixel (vô hướng) vào các nơron của lớp FC, tại sao kích thước của ma trận đầu vào lại quan trọng. – deadcode

Các vấn đề liên quan