Tôi mới sử dụng AI. Tôi đang làm một ứng dụng phân loại văn bản thông qua học máy. Ứng dụng cần phân loại các phần khác nhau của tài liệu HTML. Ví dụ: hầu hết các trang web đều có đầu, menu, thanh bên, chân trang, nội dung chính, v.v. Tôi muốn sử dụng trình phân loại văn bản để phân loại các phần này của tài liệu HTML và xác định các loại biểu mẫu khác nhau trên trang.Trí thông minh nhân tạo, Phân loại văn bản
- Sẽ rất hữu ích nếu có ai có thể cung cấp hướng dẫn chi tiết về chủ đề này.
- Ví dụ về ứng dụng tương tự, cũng sẽ rất hữu ích.
Tôi đang tìm kiếm các đề xuất kỹ thuật khác, liên quan đến mã & triển khai.
tôi có thể gán nhãn để html tag thuộc tính, giống như lớp hoặc id
<div class="menu-1">
<div id="entry">
<div id="content">
<div id="footer">
<div id="comment-12">
<div id="comment-title">
như cho mặt hàng đầu tiên:
TrainClassifier (label: "Menu", giá trị: "menu-1" , thuộc tính: "class", vị trí trong chuỗi: "21%", thẻ: "div");
Đầu vào:
- "menu-1" (giá trị thuộc tính)
- List item
- "lớp" (tên thuộc tính)
- "21" (vị trí thẻ trong chuỗi)
- "div" (tên thẻ)
Output
- "Menu" (được phân loại như nhãn)
gì thần kinh thư viện mạng, có thể mất đầu vào ở trên, và phân loại chúng theo nhãn (ví dụ: Thực đơn).
Tất cả người dùng không thể tạo regex hoặc xpath, họ cần tiếp cận dễ dàng hơn, vì vậy điều quan trọng là làm cho phần mềm thông minh, người dùng có thể làm nổi bật phần tài liệu html cần thiết, sử dụng điều khiển webbrowser và đào tạo phần mềm cho đến khi nó có thể tự làm việc.
nhưng tôi không biết làm thế nào để làm cho xe lửa phần mềm sử dụng AI,
AI Tôi đang tìm kiếm là, như nó nên có thể chấp nhận đầu vào khác nhau, và phân loại trên cơ sở đó, như tôi có đã nói mới với AI, không biết nhiều về nó. Nó sẽ rất hữu ích cho tôi nếu tôi nhận được câu trả lời cho câu hỏi tôi đã hỏi, như thư viện nào tôi nên sử dụng, và cách triển khai, câu trả lời gợi ý Xpath hoặc Regex hoặc các phương pháp khác không trả lời, nó thường xảy ra rằng bạn nhận được tất cả các đề xuất nhưng bạn cần.
Tôi nghĩ đơn vị dữ liệu trong vấn đề phân loại này không được xác định rõ. Bạn nói đó là một phần của một html nhưng làm thế nào bạn sẽ quyết định phần nào mỗi văn bản trong html thuộc về? –
Tôi nghĩ bạn phải làm điều đó trước. Nếu không, ngay cả với phương pháp phân loại như vậy, bạn sẽ huấn luyện họ như thế nào? –
Tôi không nhận được, những gì bạn đang cố gắng nói, bạn có thể xây dựng ... –