2015-01-22 21 views
5

Tôi đã xem các bài báo và sách về các hệ thống khuyến nghị và các phương pháp được đề xuất để xây dựng chúng. Trong nhiều cuộc thi, cuộc thi Netflix được đưa ra làm ví dụ. Trên phim tốc độ người dùng Netflix (từ 1 đến 5). Trong cuộc cạnh tranh đó, các đối thủ cạnh tranh đã được cung cấp cơ sở dữ liệu về phim và xếp hạng tương ứng của người dùng và họ phải triển khai hệ thống dự đoán tốt nhất xếp hạng của phim và sử dụng xếp hạng đó sẽ đề xuất phim cho người dùng.Thực hiện hệ thống giới thiệu cho việc học tập không giám sát

Để đánh giá, chúng đề xuất xác thực chéo bằng các biện pháp sử dụng xếp hạng được dự đoán và thực tế làm đối số. Xếp hạng dự đoán được tính bằng lịch sử của người dùng và xếp hạng của anh ấy cho phim.

Tôi đang cố gắng xây dựng hệ thống giới thiệu tin tức. Vấn đề tôi đang phải đối mặt bây giờ là tin tức có liên quan chỉ trong một thời gian ngắn và hầu như không ai đưa ra đánh giá cho tin tức. Vì vậy, tôi chỉ có phản hồi ngầm (lượt xem) và không có phản hồi rõ ràng (xếp hạng). Cũng trong vấn đề Netflix, chúng được cung cấp một cơ sở dữ liệu. Tôi đang tự hỏi làm thế nào để đối phó với vấn đề bắt đầu lạnh, bởi vì lúc bắt đầu không có tin tức sẽ được đọc (xem).

Tôi sẽ rất biết ơn nếu bạn có thể đề nghị tôi làm thế nào để tránh vấn đề bắt đầu lạnh và một khi tôi sẽ có một thuật toán làm thế nào tôi có thể kiểm tra nếu nó hoạt động tốt.

Cảm ơn bạn!

+0

Tôi đang xây dựng hệ thống giới thiệu cũng chỉ sử dụng phản hồi ngầm và giải pháp của tôi cho vấn đề bắt đầu lạnh là chỉ đề xuất các mục phổ biến nhất. Đó không thực sự là một giải pháp thanh lịch, nhưng đôi khi nó có thể tốt hơn là không có gì. Tôi cũng nghĩ rằng các đề xuất có thể chứa tùy chọn như "Tôi không tìm thấy mục được đề xuất này có liên quan". Mà sẽ cung cấp cho một phản hồi rõ ràng ngoài. Trong trường hợp của bạn, bạn có thể có một người giới thiệu nhân khẩu học làm người giới thiệu mặc định có thể giới thiệu tin tức theo quốc gia của người dùng (hoặc theo quốc gia của địa chỉ IP). –

+1

"Tôi đang cố gắng xây dựng hệ thống đề xuất tin tức" https://sites.google.com/site/newsrec2013/ – dranxo

Trả lời

0

Để bắt đầu với dự án này bạn đang thực hiện, tôi sẽ đề xuất phân cụm để tìm mẫu trên tin tức có liên quan/các mục phổ biến. Càng có nhiều tính năng mà bạn kết hợp theo cách làm tăng thêm giá trị cho kết quả của bạn (phần này cần lựa chọn cẩn thận, nghiên cứu và phân tích thống kê).

Để được đề xuất tin tức - bạn có thể có cách tiếp cận lớp, vì vậy, hãy nói phần đầu tiên sẽ quét các bài viết 'tích cực'/chứa các từ khóa nhất định từ những người đã nhận xét về bài viết đó.

Sau đó, có lẽ là cách tiếp cận lớp thứ hai sẽ vượt qua phản ứng tham khảo twitter của bài báo đó, to facebook của thích/giao thông, đến bao nhiêu Pinterest sử dụng của pin bài báo đó, vv ...

Bạn cũng có thể kiểm tra xu hướng từ khóa từ google, bing, v.v ... về các chủ đề cụ thể, đó là cách đảm bảo rằng bài viết bạn đang hiển thị là 'có liên quan'

Tôi cũng khuyên bạn nên bắt đầu một số bài viết nhỏ trên web - có thể xem xét tập trung trên một chủ đề và sau đó khái quát hóa nó. Như bạn có thể nhận thấy, mức độ phổ biến 'bài viết' liên quan đến một số tiếng nói mà mọi người theo dõi nên đó là một cách khác để tìm sự liên quan của bài viết đó.

Dưới đây là thông tin thêm về việc học không có giám sát: http://en.wikipedia.org/wiki/Unsupervised_learning

Bạn cũng có thể muốn xem xét vọng Tối đa hóa để tìm mà biến sẽ cải thiện các dữ liệu không quan sát được bạn đã đạt được. Dưới đây là giải thích đầy đủ về EM https://stats.stackexchange.com/questions/72774/numerical-example-to-understand-expectation-maximization

2

Phim là trường hợp sử dụng tuyệt vời cho lọc cộng tác cổ điển: chúng là những mặt hàng mà mọi người quan tâm trong một thời gian dài, có rất ít người trong số họ, nhiều người có sở thích chồng chéo và xếp hạng sao có ý nghĩa. Tin bài là hoàn toàn khác nhau. Thay vì lọc cộng tác, hãy xem lọc dựa trên nội dung. Đó là nơi sở thích của mọi người phù hợp với số nhận dạng nội dung (có thể là từ khóa về câu chuyện tin tức hoặc nhà xuất bản hoặc siêu dữ liệu về thời gian trong ngày hoặc khu vực của thế giới).Số lượt xem là cách đặt cược tốt nhất của bạn để biết thông tin về tùy chọn của mọi người và chúng cũng cho phép bạn sử dụng một số kỹ thuật khai phá dữ liệu như khai phá quy tắc kết hợp.

Mặc dù bạn vẫn gặp vấn đề bắt đầu lạnh - nơi người dùng mới trong hệ thống đã cung cấp cho bạn thông tin về tùy chọn của mình, trừ khi bạn khởi động nó để khai thác tweets hoặc sở thích trên Facebook hoặc thứ gì đó sắp xếp - - bạn có thể tránh vấn đề bắt đầu lạnh. Thay vì dựa vào những câu chuyện tin tức đọc qua cộng đồng của bạn như là cách duy nhất để có được những điểm giống nhau, bạn có thể sử dụng một kho văn bản khác. Đặc biệt, hãy thử Wikipedia và xem WikiBrain (https://github.com/shilad/wikibrain). Đó là một API thông qua đó bạn có thể nhận được sự giống nhau của một khái niệm này với khái niệm khác, và áp dụng nó cho các nhu cầu đề xuất của bạn.

Các vấn đề liên quan