Tôi thấy mình phải học những điều mới mọi lúc. Tôi đã cố gắng nghĩ cách để tôi có thể tiến hành quá trình học các môn học mới. Tôi nghĩ rằng nó có thể được gọn gàng nếu tôi có thể viết một chương trình để phân tích một bài viết wikipedia và loại bỏ tất cả mọi thứ, nhưng các thông tin có giá trị nhất.Tóm tắt Bài viết trên Wikipedia
Tôi bắt đầu bằng cách tham gia bài viết trên Wikipedia số PDFs và trích xuất 100 câu đầu tiên. Tôi đã cho mỗi câu một số điểm dựa trên giá trị mà tôi nghĩ là như thế nào. Tôi đã tạo một tệp theo định dạng sau:
<sentence>
<value>
<sentence>
<value>
etc.
Sau đó, tôi phân tích tệp này và tìm các hàm khác nhau có tương quan với mỗi câu với giá trị mà tôi đã đưa ra. Tôi vừa mới bắt đầu học về máy học và thống kê và không có điều gì, vì vậy tôi đang làm rất nhiều vụng về ở đây. Đây là nỗ lực mới nhất của tôi: https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py.
Tôi đã thử một loạt các công cụ dường như không tạo ra mối tương quan nào cả - chiều dài từ trung bình, vị trí trong bài viết, v.v. Điều duy nhất tạo ra bất kỳ mối quan hệ hữu ích nào là chiều dài của chuỗi (cụ thể hơn, đếm số chữ cái thường của chữ cái e có vẻ hoạt động tốt nhất). Nhưng điều đó có vẻ hơi xấu hổ, bởi vì dường như rõ ràng là các câu dài hơn sẽ có nhiều khả năng chứa thông tin hữu ích hơn. Tại một thời điểm tôi nghĩ rằng tôi đã tìm thấy một số chức năng thú vị, nhưng sau đó khi tôi cố gắng loại bỏ các ngoại lệ (chỉ đếm các phần tư bên trong), chúng bật ra để tạo ra kết quả tồi tệ hơn, sau đó chỉ trả về 0 cho mỗi câu. Điều này khiến tôi băn khoăn về việc có bao nhiêu thứ khác mà tôi có thể làm sai ... Tôi cũng tự hỏi liệu đây có phải là cách hay để tiếp cận vấn đề này hay không.
Bạn có nghĩ rằng tôi đang đi đúng hướng không? Hay đây chỉ là một chuyện ngu ngốc? Có bất kỳ thiếu sót rõ ràng nào trong mã được liên kết không? Có ai biết cách tốt hơn để tiếp cận vấn đề tóm tắt một bài viết trên Wikipedia không? Tôi muốn có một giải pháp nhanh chóng và bẩn thỉu hơn cái gì đó hoàn hảo mà phải mất một thời gian dài để đặt lại với nhau. Bất kỳ lời khuyên chung nào cũng sẽ được hoan nghênh.
Tiếp theo, bạn sẽ muốn chúng tôi sử dụng báo chí để làm cho bài viết được quét thậm chí ngắn hơn;) – tylerthemiler
Bạn rõ ràng là quá cũ. Để những thứ này cho những người 16 tuổi http://www.wired.com/gadgetlab/2011/12/summly-app-summarization/ – ColinE
:) Tóm lại trông thật tuyệt. Tôi không thể chạy nó trên ipod của tôi, nhưng tôi có thể đọc các nhận xét. Chúng khá hỗn hợp. Tôi có ấn tượng rằng nó không hoạt động tốt. –