Văn bản không có cấu trúc sau đây có ba chủ đề riêng biệt - Stallone, Philadelphia và Cách mạng Mỹ. Nhưng bạn sẽ sử dụng thuật toán hoặc kỹ thuật nào để tách nội dung này thành các đoạn riêng biệt?Cách sử dụng NLP để tách nội dung văn bản không có cấu trúc thành các đoạn riêng biệt?
Các trình phân loại sẽ không hoạt động trong tình huống này. Tôi cũng đã cố gắng sử dụng phân tích tương tự Jaccard để tìm khoảng cách giữa các câu liên tiếp và cố gắng nhóm các câu liên tiếp thành một đoạn nếu khoảng cách giữa chúng thấp hơn một giá trị đã cho. Có phương pháp nào tốt hơn không?
Đây là mẫu văn bản của tôi:
Sylvester Stallone Gardenzio, có biệt danh là Sly Stallone, là một diễn viên người Mỹ, nhà sản xuất phim và nhà biên kịch. Stallone được biết đến với vai trò hành động machismo và Hollywood của mình. Phim của Stallone, Rocky được giới thiệu vào Cơ quan đăng ký phim quốc gia cũng như đạo cụ điện ảnh được đặt tại Bảo tàng Smithsonian. Việc sử dụng lối vào phía trước của Bảo tàng Nghệ thuật Philadelphia trong dãy Rocky dẫn đến khu vực được đặt tên là trung tâm thương mại, giáo dục và văn hóa Rocky Steps.A, Philadelphia từng là thành phố lớn thứ hai ở Đế quốc Anh (sau Luân Đôn)), và trung tâm xã hội và địa lý của 13 thuộc địa nguyên thủy của Mỹ. Nó là một trung tâm của lịch sử Mỹ đầu tiên, lưu trữ nhiều ý tưởng và hành động đã sinh ra cuộc Cách mạng Mỹ và độc lập. Cách mạng Mỹ là biến động chính trị trong nửa cuối thế kỷ 18, trong đó mười ba thuộc địa ở Bắc Mỹ tham gia cùng nhau thoát khỏi Đế quốc Anh, kết hợp để trở thành Hoa Kỳ. Lần đầu tiên họ từ chối thẩm quyền của Quốc hội Anh để cai trị họ từ nước ngoài mà không có đại diện, và sau đó trục xuất tất cả các quan chức hoàng gia. Đến năm 1774, mỗi thuộc địa đã thành lập một Quốc hội tỉnh, hoặc một cơ quan chính phủ tương đương, để hình thành các quốc gia tự quản.