Được biết, hiện đại phổ biến nhất CNN (mạng nơron xoắn): VGG/ResNet (FasterRCNN), SSD, Yolo, Yolo v2, DenseBox, DetectNet - không xoay bất biến: Are modern CNN (convolutional neural network) as DetectNet rotate invariant?Tại sao các mạng thần kinh bất biến luân phiên không được sử dụng trong những người chiến thắng trong các cuộc thi phổ biến?
Còn được gọi, rằng có một số mạng nơ-ron với phát hiện đối tượng xoay-bất biến:
Rotation-invariant Neoperceptron 2006 (PDF): https://www.researchgate.net/publication/224649475_Rotation-Invariant_Neoperceptron
Học xoay bất biến lọc xoắn để phân loại kết cấu 2016 (PDF): https://arxiv.org/abs/1604.06720
RIFD-CNN: Rotation-bất biến và Fisher phân biệt Convolutional Neural Networks cho Detection Object 2016 (PDF): http://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Cheng_RIFD-CNN_Rotation-Invariant_and_CVPR_2016_paper.html
mã hóa bất biến trong Convolutional Neural Networks 2014 (PDF)
Mạng thần kinh xoắn ốc bất biến vòng quay cho dự đoán hình thái thiên hà (PDF): https://arxiv.org/abs/1503.07077
Learning Rotation-Invariant Convolutional Neural Networks cho Detection Object trong VHR quang hình ảnh viễn thám 2016: http://ieeexplore.ieee.org/document/7560644/
Chúng ta biết, rằng trong đó các cuộc thi ảnh phát hiện như: IMAGE-NET, MSCOCO, PASCAL VOC - mạng sử dụng ensembles (đồng thời một số mạng thần kinh). Hoặc mạng kết hợp trong mạng đơn như ResNet (Residual Networks Behave Like Ensembles of Relatively Shallow Networks)
Nhưng được sử dụng cụm biến đổi bất biến xoay vòng trong người chiến thắng như MSRA, và nếu không, thì tại sao? Tại sao trong toàn bộ mạng bất biến xoay vòng bổ sung không thêm độ chính xác để phát hiện các đối tượng nhất định như đối tượng máy bay - hình ảnh nào được thực hiện ở các góc xoay khác nhau?
Nó có thể là:
Tại sao xoay mạng nơron không biến đổi không được sử dụng trong những người chiến thắng của po cuộc thi phát hiện đối tượng pular?
Trong nhiều cuộc thi, mọi người phân tích mọi lớp và các vòng quay có thể có của nó. Một hình ảnh của một chiếc máy bay trên bầu trời có thể có mọi vòng quay có thể, nhưng một hình ảnh ngang của một con chó không chạy. Và họ tạo ra hình ảnh đào tạo mới từ những hình ảnh ban đầu với mọi vòng quay có thể. Có lẽ đó là chính xác hơn so với một thuật toán bất biến xoay. Một giải thích khác có thể là có những thư viện rất hiệu quả để chạy CNN trên GPU (Tôi không biết liệu có các thư viện hiệu quả trên GPU để xoay các mạng thần kinh bất biến). – Rob
@Rob ** 1. ** Có, cách tiếp cận xoay bất biến chỉ có thể được sử dụng để biến đổi affine (để phát hiện vật thể không khí từ mặt đất, hoặc đối tượng mặt đất từ không khí), nhưng không phải để chuyển đổi ellastic (để phát hiện động vật), và không quay cho một trục ngoài mặt phẳng chụp. Nhưng xoay-bất biến-CNN có thể được sử dụng ngoài mạng convolutional bình thường trong cụm. Xoay-bất biến-CNN đòi hỏi nhiều hình ảnh đầu vào ít hơn và các thông số có thể điều chỉnh - và do đó tìm hiểu nhanh hơn và chính xác hơn (đối với các đối tượng thích hợp nhất) – Alex
@Rob ** 2. ** Giới thiệu về GPU. 5.Rotation-bất biến mạng thần kinh xoắn cho dự báo thiên hà hình thái: '7,9 Thực hiện ... Điều này cho phép việc sử dụng các khả năng tăng tốc GPU mà không cần bất kỳ nỗ lực bổ sung ... Networks đã tập huấn về NVIDIA GeForce GTX 680 cards.' https: // arXiv .org/pdf/1503.07077v1.pdf Cũng có thể là bất biến luân phiên 'cv :: SURF_GPU' theo một cách nào đó có thể được sử dụng thay vì nhân-chập (ma trận). – Alex