Tôi hiểu rằng đầu vào ANN phải được chuẩn hóa, chuẩn hóa, v.v. Để lại các đặc tính và mô hình của ANN khác nhau sang một bên, làm cách nào để xử lý trước văn bản được mã hóa UTF-8 trong phạm vi {0 , 1} hoặc cách khác giữa phạm vi {-1,1} trước khi nó được đưa ra làm đầu vào cho mạng thần kinh? Tôi đã tìm kiếm điều này trên google nhưng không thể tìm thấy bất kỳ thông tin nào (tôi có thể đang sử dụng sai cụm từ).xử lý chuỗi văn bản cho đầu vào mạng thần kinh
- Điều đó có hợp lý không?
- Đó không phải là cách văn bản được xử lý trước cho mạng thần kinh?
- Có cách nào khác không?
EDIT 20 tháng mười một năm 2013:
tôi từ lâu đã được chấp nhận như đúng câu trả lời của Pete. Tuy nhiên, tôi có những nghi ngờ nghiêm trọng, chủ yếu là do các nghiên cứu gần đây tôi đã làm về kiến thức tượng trưng và ANN.
Dario Floreano and Claudio Mattiussi trong sách của họ giải thích rằng việc xử lý như vậy thực sự có thể, bằng cách sử dụng mã hóa phân phối. Thật vậy nếu bạn thử tìm kiếm trên google scholar, tồn tại rất nhiều bài báo về khoa học thần kinh và các bài báo về cách mã hóa được giả định được sử dụng bởi bộ não để mã hóa Kiến thức tượng trưng.
Teuvo Kohonen, trong bài báo của mình "Tự tổ chức Maps" giải thích:
Người ta có thể nghĩ rằng việc áp dụng pháp luật thích ứng thần kinh để một biểu tượng set (coi như là một tập hợp các biến vectơ) có thể tạo một bản đồ địa hình hiển thị "khoảng cách hợp lý" giữa các ký hiệu . Tuy nhiên, xảy ra một vấn đề nằm trong bản chất khác nhau của của các biểu tượng so với dữ liệu liên tục. Đối với trường hợp thứ hai, tương tự luôn hiển thị theo cách tự nhiên, vì sự khác biệt về chỉ số giữa các mã hóa liên tục của chúng. Điều này không còn đúng đối với các mục biểu tượng, rời rạc, chẳng hạn như các từ, không có chỉ số nào được định nghĩa là . Chính bản chất của một biểu tượng mà ý nghĩa của nó là tách khỏi mã hóa của nó.
Tuy nhiên, Kohonen đã quản lý để đối phó với Thông tin tượng trưng trong SOM!
Hơn nữa, Giáo sư Tiến sĩ Alfred Ultsch trong bài báo của mình "Các Lồng ghép Neural Networks với Processing Kiến thức tượng trưng" giao dịch chính xác với cách xử lý kiến thức tượng trưng (như văn bản) trong ANN của. Ultsch cung cấp các phương pháp sau đây để xử lý kiến thức tượng trưng: Lý thuyết xấp xỉ thần kinh, Hợp nhất thần kinh, Introspection và tích hợp Thu thập kiến thức. Mặc dù ít thông tin có thể được tìm thấy trên những người trong học giả google hoặc bất cứ nơi nào khác cho rằng vấn đề.
Câu trả lời của Pete đúng về ngữ nghĩa học. Ngữ nghĩa trong ANN thường bị ngắt kết nối.Tuy nhiên, tham khảo sau đây, cung cấp cái nhìn sâu sắc về cách các nhà nghiên cứu sử dụng RBM, được đào tạo để nhận ra sự giống nhau trong ngữ nghĩa của các đầu vào từ khác nhau, do đó không thể có ngữ nghĩa, nhưng sẽ yêu cầu cách tiếp cận phân lớp hoặc ANN phụ .
Natural Language Processing With Subsymbolic Neural Networks, Risto Miikkulainen, 1997 Training Restricted Boltzmann Machines on Word Observations, G.E.Dahl, Ryan.P.Adams, H.Rarochelle, 2012
Điều này có ý nghĩa hay không phụ thuộc vào những gì bạn đang cố gắng đạt được với ANN của bạn. Độ dài cố định của văn bản của bạn phải không? Nghĩa là, đầu vào sẽ luôn là chuỗi có độ dài giống nhau không?Nếu không, thì đây có lẽ không phải là điều bạn muốn làm. Bạn có thể mô tả chi tiết hơn về những gì bạn đang cố gắng đạt được ANN của bạn nói chung không? Vấn đề bạn đang cố gắng giải quyết là gì. – Pete
@Pete Tôi đang cố gắng phân tích chuỗi utf-8 thành một vectơ số trước khi gửi chúng vào mạng thần kinh. Tôi không muốn tính năng trích xuất hoặc nén bất kỳ loại nào, mà là một ánh xạ hai chiều của các chuỗi thành các phao. Lý do cho điều này là một phần trong nghiên cứu của tôi về mạng học giả và mạng niềm tin sâu sắc. Tôi không thể đi vào nhiều chi tiết mà không cần viết nhiều trang. Vấn đề hiện tại của tôi là tôi không thể tìm thấy bất kỳ nơi nào có thông tin về cách sử dụng chuỗi văn bản một cách an toàn (độ dài không cố định nhưng với độ dài tối đa) làm đầu vào cho ANN. –
Tôi đoán những gì tôi đang cố gắng tìm ra là, thông tin nào về các từ mà bạn muốn? Đó có phải là ý nghĩa của họ? Có phải bạn đã nói 20 từ và ý nghĩa đặc biệt của chúng là không quan trọng, chỉ từ nào được kết hợp với đầu vào quan trọng? Bạn có nhận được những gì tôi yêu cầu không? Có một số từ cố định có thể là một phần của đầu vào của bạn không? Tôi không nghĩ rằng bạn sẽ có thể thực hiện một "bản đồ hai chiều" thực như bạn muốn nói, trừ khi các chuỗi là các biến thể của độ có thể được sắp xếp theo cách "độ gần" của giá trị float liên kết với " sự gần gũi "của các từ. – Pete