2009-06-07 51 views
34

Tôi đang tìm một số bộ dữ liệu tương đối đơn giản để thử nghiệm và so sánh các phương pháp đào tạo khác nhau cho mạng nơron nhân tạo. Tôi muốn dữ liệu sẽ không mất quá nhiều tiền xử lý để biến nó thành định dạng đầu vào của tôi trong danh sách đầu vào và đầu ra (được chuẩn hóa thành 0-1). Bất kỳ liên kết nào được đánh giá cao.Tập dữ liệu cho đào tạo mạng thần kinh

Trả lời

28

Tại sao không thử một cái gì đó đơn giản như chức năng tội lỗi như dữ liệu đào tạo? Vì bạn đang so sánh các phương pháp đào tạo và không thực sự quan tâm đến những gì bạn đang đào tạo mạng, nó nên hoạt động và dễ dàng tạo ra dữ liệu đào tạo.

Đào tạo mạng bằng sin (x) trong đó x là đầu vào và đầu ra là giá trị của hàm. Lợi ích bổ sung trong trường hợp của bạn là giá trị tuyệt đối của kết quả đã nằm trong khoảng 0-1. Nó sẽ làm việc như nhau với các hàm toán học khác.

+0

Vâng, đó là một điểm tuyệt vời. Ngoài ra, mặc dù, tôi vẫn muốn một số vấn đề chiều cao hơn. Tôi đoán tôi có thể tạo ra chúng từ phương trình quá. Cảm ơn. –

+1

@ JeffThomas Tôi muốn biết liệu một người nào đó có thực sự đạt được SIN xấp xỉ với NN hay không. Nếu vậy, lỗi cuối cùng của bạn là gì và cấu hình mạng? –

3

Tôi đã học ANN làm đại học bằng cách sử dụng chúng để thực hiện OCR (Nhận dạng ký tự quang học). Tôi nghĩ rằng đây là một trường hợp sử dụng tốt đẹp.

Quét trong hai trang văn bản, trích xuất các chữ cái và tạo các bộ dữ liệu đào tạo/thử nghiệm (ví dụ: 8x8 pixel dẫn đến 64 nút đầu vào), gắn nhãn dữ liệu. Đào tạo ANN và nhận điểm bằng cách sử dụng tập dữ liệu thử nghiệm. Thay đổi cấu trúc liên kết/tham số mạng và điều chỉnh mạng để có được điểm số tốt nhất.

47

https://archive.ics.uci.edu/ml là kho dữ liệu học tập máy của Đại học California Irvine. Đó là một nguồn tài nguyên thực sự tuyệt vời và tôi tin rằng tất cả chúng đều nằm trong các tệp CSV.

+1

Hey, điều đó khá gọn gàng. Chính xác những gì tôi đang tìm kiếm. – Mumbleskates

11

Một số nguồn là

  • Các hàm sinc.

     +---- 
         | sin(x) 
         | -------  when x != 0 
         |  x 
    sinC = | 
         | 
         |  1   otherwise 
         +---- 
    
  • Chức năng sin(x) như @adrianbanks đã nói.

  • Để thử nghiệm một số sửa đổi mới đối với một số thuật toán kiểm tra n-chẵn lẻ cũ tốt.

  • Tập dữ liệu Iris, bộ dữ liệu chữ viết tay semeion vv, bất kỳ chức năng nào khác và nhiều tính năng khác.

  • Các UCI Machine Learning Repository: archive.ics.uci.edu/ml/datasets.html

  • Dưới đây là một nguồn tài nguyên có nhiều bộ dữ liệu hồi quy: www.dcc.fc.up.pt/~ltorgo//Regression/DataSets.html. Bạn sẽ nhận được nhiều trong số này từ kho lưu trữ UCI ML.
  • Bạn có thể nhận bộ dữ liệu từ https://www.kaggle.com/ cho các tập dữ liệu thực tế khác nhau.

Tôi không nghĩ rằng bạn yêu cầu nhiều tiền xử lý với những điều này. Giống như các biến phân loại, bạn có thể thay thế chúng bằng nhị phân bằng cách sử dụng trình soạn thảo văn bản GUI nhanh. Ví dụ: bộ dữ liệu Abalone có một thuộc tính phân loại, Giới tính, có ba giá trị "M" cho nam, "F" cho nữ, "I" cho trẻ sơ sinh. Bạn có thể nhấn Ctrl + R trong trình soạn thảo văn bản và thay thế tất cả các lần xuất hiện của "M" bằng 1,0,0, tất cả các lần xuất hiện "F" với 0,1,0 và tất cả các lần xuất hiện "I" bằng 0,0,1 (xem tệp có định dạng CSV). Điều này sẽ thay thế nhanh chóng các biến phân loại.

Nếu bạn đang ở trong R, sau đó bạn có thể sử dụng normalizeData chức năng mà đi kèm với các RSNNS package để mở rộng và chuẩn hóa dữ liệu của bạn trong 0 và 1.

Nếu bạn đang ở trong môi trường khác như octave hay matlab, bạn có thể chỉ cần đầu tư một chút thời gian để viết mã của bạn. Tôi không biết các chức năng có sẵn trong các môi trường này, tôi sử dụng mã của mình để mở rộng và/hoặc chuẩn hóa dữ liệu.

Khi bạn sử dụng các chức năng, công việc của bạn được thực hiện dễ dàng hơn nhiều và khi bạn chuẩn bị dữ liệu, hãy lưu dữ liệu đã sửa đổi vào một tệp.

Hãy nhớ một điều, mục tiêu đào tạo mạng nơ-ron không chỉ để đào tạo mạng theo cách sao cho nó hoạt động tốt trên một tập huấn luyện nhất định. Mục tiêu chính là đào tạo mạng như vậy mà nó có lỗi tốt nhất cho dữ liệu mới mà mạng đã không nhìn thấy (trực tiếp hoặc gián tiếp).

+1

Câu trả lời hay nhất tôi đã tìm thấy cho đến bây giờ cho các câu hỏi về Tập dữ liệu ...! –

4

Dưới đây là một số chữ viết tay và các cơ sở dữ liệu khác cho mục đích đào tạo.

http://www.cs.nyu.edu/~roweis/data.html

Là một mặt lưu ý thú vị, ~ roweis cam kết tự tử trong năm 2010 sau khi chiến đấu với vợ: http://www.huffingtonpost.com/2010/01/14/sam-roweis-nyu-professor-_n_421500.html.

+0

+1. Cảm ơn bạn! Rất kỳ lạ khi đọc những lời của người đàn ông này biết được trạng thái của tâm trí của mình khi họ được viết. – sherrellbc

Các vấn đề liên quan