Điều gì đang xảy ra về mặt toán học khi các đề xuất khu vực được thay đổi kích thước theo các hàm kích hoạt lớp chập cuối cùng? Trong hướng dẫn following về phát hiện đối tượng với CNN đã đề cập về RCNN nhanh. Ở đây họ đã đề cập đến lớp ROI và những gì đang xảy ra. Nhưng tôi không hiểu những gì xảy ra toán học khi thay đổi kích thước các đề xuất khu vực của bạn thành kích hoạt convlon cuối cùng trong mỗi ô.Lớp ROI trong RCnn nhanh là gì?
Trả lời
Region-of-lãi (ROI) Pooling:
Nó là một loại lớp tổng hợp, thực hiện max tổng hợp đầu vào (ở đây, bản đồ tính năng convnet) có kích thước không đồng nhất và tạo ra một bản đồ nhỏ có kích thước cố định (nói 7x7). Sự lựa chọn kích thước cố định này là một tham số siêu mạng và được xác định trước.
Mục đích chính của việc tạo nhóm như vậy là tăng tốc độ đào tạo và thời gian thử nghiệm và cũng để đào tạo toàn bộ hệ thống từ đầu cuối đến cuối (theo cách thức chung).
Đó là do việc sử dụng lớp gộp này đào tạo & thời gian thử nghiệm nhanh hơn so với kiến trúc R-CNN ban đầu (vanilla?) Và do đó tên là Fast R-CNN.
dụ đơn giản (từ Region of interest pooling explained by deepsense.io):
Lớp ROI (khu vực quan tâm) được giới thiệu trong Fast R-CNN và là trường hợp đặc biệt của lớp tổng hợp kim tự tháp không gian được giới thiệu trong Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition. Chức năng chính của lớp ROI là định hình lại đầu vào với kích thước tùy ý thành một đầu ra có độ dài cố định do ràng buộc kích thước trong các lớp được kết nối hoàn toàn.
Làm thế nào lớp ROI công trình được thể hiện dưới đây:
Trong hình ảnh này, những hình ảnh đầu vào với kích thước tùy ý được đưa vào lớp này trong đó có 3 cửa sổ khác nhau: 4x4 (màu xanh), 2x2 (màu xanh lá cây), 1x1 (xám) để tạo ra kết quả đầu ra với kích thước cố định là 16 x F, 4 x F và 1 x F tương ứng cho F là số lượng bộ lọc. Sau đó, các đầu ra đó được nối vào một vec-tơ để được đưa vào lớp Kết nối hoàn toàn.
bạn có thể xây dựng trên quan điểm "vì kích thước hạn chế trong đầy đủ các lớp kết nối". Vì chúng ta đang cho các giá trị pixel (vô hướng) vào các nơron của lớp FC, tại sao kích thước của ma trận đầu vào lại quan trọng. – deadcode
- 1. RCNN nhanh hơn cho TensorFlow
- 2. Sử dụng ROI trong OpenCV?
- 3. nhanh hơn là gì?
- 4. Cách đơn giản nhất để tạo bộ dò đối tượng trên C++ với Fast/Faster-RCNN là gì?
- 5. .successor() nhanh chóng là gì?
- 6. Lớp "{" trong R là gì?
- 7. Lớp HibernateTemplate là gì?
- 8. Nhanh hơn std :: pow là gì?
- 9. Lớp React.AsyncComponent là gì?
- 10. WCF - liên kết nhanh nhất là gì?
- 11. Git "Ảnh chụp nhanh" là gì?
- 12. Lớp SelectList trong C# là gì?
- 13. Lớp ansi trong C# là gì?
- 14. "string [] args" trong lớp chính là gì?
- 15. Lớp ModelState trong MVC 3 là gì?
- 16. Chỉ số lớp trong WEKA là gì?
- 17. Chữ cái lớp trong Java là gì?
- 18. là gì nhanh bằng Python "trong khi" hoặc "cho xrange"
- 19. Thay thế NSTimer.scheduledTimerWithTimeInterval() trong 3 nhanh chóng là gì?
- 20. Khái niệm chụp nhanh trong phi tiêu là gì?
- 21. Phím tắt để gõ nhanh trong Visual Studio là gì?
- 22. Unicorn coi là yêu cầu "nhanh" và "chậm" là gì?
- 23. Lớp trừu tượng là gì?
- 24. Lớp mở rộng là gì?
- 25. nhiều lớp con nhanh trong UITableViewCOntroller
- 26. Có kế hoạch nào cho lớp ROI Pooling trong chuỗi lưu lượng để phát hiện đối tượng không?
- 27. PHP: SOAP nhanh nhất, file_get_contents hoặc Curl là gì?
- 28. Nhanh hơn là gì? File_exist hoặc truy vấn MySQL?
- 29. Cách nhanh nhất để lấy phần tử dom là gì?
- 30. Cách nhanh nhất để nhận HTTP bằng Python là gì?
Ở đây, đề xuất khu vực có nghĩa là hình dạng của khu vực trong hình ảnh hoặc phần của hình ảnh có pixel sau đó được nhân với giá trị bộ lọc tối đa? –