11

Được biết, hiện đại phổ biến nhất CNN (mạng nơron xoắn): VGG/ResNet (FasterRCNN), SSD, Yolo, Yolo v2, DenseBox, DetectNet - không xoay bất biến: Are modern CNN (convolutional neural network) as DetectNet rotate invariant?Tại sao các mạng thần kinh bất biến luân phiên không được sử dụng trong những người chiến thắng trong các cuộc thi phổ biến?

Còn được gọi, rằng có một số mạng nơ-ron với phát hiện đối tượng xoay-bất biến:

  1. Rotation-invariant Neoperceptron 2006 (PDF): https://www.researchgate.net/publication/224649475_Rotation-Invariant_Neoperceptron

  2. Học xoay bất biến lọc xoắn để phân loại kết cấu 2016 (PDF): https://arxiv.org/abs/1604.06720

  3. RIFD-CNN: Rotation-bất biến và Fisher phân biệt Convolutional Neural Networks cho Detection Object 2016 (PDF): http://www.cv-foundation.org/openaccess/content_cvpr_2016/html/Cheng_RIFD-CNN_Rotation-Invariant_and_CVPR_2016_paper.html

  4. mã hóa bất biến trong Convolutional Neural Networks 2014 (PDF)

  5. Mạng thần kinh xoắn ốc bất biến vòng quay cho dự đoán hình thái thiên hà (PDF): https://arxiv.org/abs/1503.07077

  6. Learning Rotation-Invariant Convolutional Neural Networks cho Detection Object trong VHR quang hình ảnh viễn thám 2016: http://ieeexplore.ieee.org/document/7560644/

Chúng ta biết, rằng trong đó các cuộc thi ảnh phát hiện như: IMAGE-NET, MSCOCO, PASCAL VOC - mạng sử dụng ensembles (đồng thời một số mạng thần kinh). Hoặc mạng kết hợp trong mạng đơn như ResNet (Residual Networks Behave Like Ensembles of Relatively Shallow Networks)

Nhưng được sử dụng cụm biến đổi bất biến xoay vòng trong người chiến thắng như MSRA, và nếu không, thì tại sao? Tại sao trong toàn bộ mạng bất biến xoay vòng bổ sung không thêm độ chính xác để phát hiện các đối tượng nhất định như đối tượng máy bay - hình ảnh nào được thực hiện ở các góc xoay khác nhau?

Nó có thể là:

  • đối tượng máy bay được chụp từ mặt đất enter image description here

  • đối tượng

    hoặc đất được chụp từ không khí enter image description here

Tại sao xoay mạng nơron không biến đổi không được sử dụng trong những người chiến thắng của po cuộc thi phát hiện đối tượng pular?

+0

Trong nhiều cuộc thi, mọi người phân tích mọi lớp và các vòng quay có thể có của nó. Một hình ảnh của một chiếc máy bay trên bầu trời có thể có mọi vòng quay có thể, nhưng một hình ảnh ngang của một con chó không chạy. Và họ tạo ra hình ảnh đào tạo mới từ những hình ảnh ban đầu với mọi vòng quay có thể. Có lẽ đó là chính xác hơn so với một thuật toán bất biến xoay. Một giải thích khác có thể là có những thư viện rất hiệu quả để chạy CNN trên GPU (Tôi không biết liệu có các thư viện hiệu quả trên GPU để xoay các mạng thần kinh bất biến). – Rob

+0

@Rob ** 1. ** Có, cách tiếp cận xoay bất biến chỉ có thể được sử dụng để biến đổi affine (để phát hiện vật thể không khí từ mặt đất, hoặc đối tượng mặt đất từ ​​không khí), nhưng không phải để chuyển đổi ellastic (để phát hiện động vật), và không quay cho một trục ngoài mặt phẳng chụp. Nhưng xoay-bất biến-CNN có thể được sử dụng ngoài mạng convolutional bình thường trong cụm. Xoay-bất biến-CNN đòi hỏi nhiều hình ảnh đầu vào ít hơn và các thông số có thể điều chỉnh - và do đó tìm hiểu nhanh hơn và chính xác hơn (đối với các đối tượng thích hợp nhất) – Alex

+0

@Rob ** 2. ** Giới thiệu về GPU. 5.Rotation-bất biến mạng thần kinh xoắn cho dự báo thiên hà hình thái: '7,9 Thực hiện ... Điều này cho phép việc sử dụng các khả năng tăng tốc GPU mà không cần bất kỳ nỗ lực bổ sung ... Networks đã tập huấn về NVIDIA GeForce GTX 680 cards.' https: // arXiv .org/pdf/1503.07077v1.pdf Cũng có thể là bất biến luân phiên 'cv :: SURF_GPU' theo một cách nào đó có thể được sử dụng thay vì nhân-chập (ma trận). – Alex

Trả lời

5

Tiến độ gần đây trong nhận dạng hình ảnh mà chủ yếu được làm bằng cách thay đổi cách tiếp cận từ một lựa chọn tính năng cổ điển - nông thuật toán học-không lựa chọn feture - sâu thuật toán học được không chỉ do tính chất toán học của thần kinh xoắn mạng.Có - tất nhiên khả năng của họ để nắm bắt những thông tin tương tự sử dụng số lượng nhỏ hơn các thông số đã được một phần do tính bất biến sự thay đổi của họ nhưng gần đây research đã chỉ ra rằng đây không phải là chìa khóa trong việc tìm hiểu thành công của họ.

Theo tôi lý do chính đằng sau sự thành công này đã được phát triển nhanh hơn thuật toán học hơn toán học chính xác hơn những người thân và đó là lý do tại sao sự chú ý ít được đưa vào phát triển khác sở hữu bất biến lưới thần kinh.

Tất nhiên - bất biến luân phiên không bị bỏ qua. Điều này được thực hiện một phần bằng cách tăng cường dữ liệu nơi bạn đặt hình ảnh hơi thay đổi (ví dụ: xoay hoặc được đổi kích thước) thành tập dữ liệu của bạn - với cùng một nhãn. Như chúng ta có thể đọc trong này fantastic book hai cách tiếp cận này (hơn cấu trúc vs cấu trúc ít + dữ liệu tăng thêm) ít nhiều tương đương.

+1

Vâng, tôi nghĩ rằng các nhân-chập xoắn bất biến quay không thể được đào tạo nhanh như Kernel thông thường. Tuy nhiên, các hạt nhân bất biến luân phiên đòi hỏi ít tham số hơn cho việc học (1 hạt nhân bất biến luân chuyển thay vì 12 hạt nhân thông thường khác nhau cho mỗi góc 30 độ) và ít hình ảnh đầu vào hơn. Điều này sẽ tăng tốc độ đào tạo. – Alex

+1

Bạn có thể cụ thể hơn (ví dụ như số trang), nơi Giám mục nói rằng hai cách tiếp cận ít nhiều tương đương? Tôi đã tìm kiếm cuốn sách cho 'augment' nhưng không thể tìm thấy gì cả. – DharmaTurtle

1

Tôi cũng tự hỏi tại sao cộng đồng hoặc học giả đã không đặt nhiều sự chú ý trên khẩu phần bất biến CNN như @ Alex.

Một nguyên nhân có thể, theo ý kiến ​​của tôi, là nhiều tình huống không cần tài sản này, đặc biệt là đối với những cuộc thi phổ biến. Giống như Rob đã đề cập, một số hình ảnh tự nhiên đã được chụp theo cách ngang (hoặc dọc) thống nhất. Ví dụ, trong phát hiện khuôn mặt, nhiều công trình sẽ sắp xếp hình ảnh để đảm bảo mọi người đang đứng trên trái đất trước khi ăn cho bất kỳ mô hình CNN nào. Thành thật mà nói, đây là cách rẻ nhất và hiệu quả nhất cho công việc cụ thể này.

Tuy nhiên, có không tồn tại một số kịch bản trong cuộc sống thực, cần xoay sở hữu bất biến. Vì vậy, tôi đến dự đoán khác: vấn đề này không phải là khó khăn từ những chuyên gia (hoặc các nhà nghiên cứu) xem. Ít nhất chúng ta có thể sử dụng dữ liệu augmentation để có được một số bất biến xoay.

Cuối cùng, cảm ơn rất nhiều về tóm tắt của bạn về các bài báo. Tôi đã thêm một giấy nữa Group Equivariant Convolutional Networks_icml2016_GCNNimplementation on github của người khác.

Các vấn đề liên quan