2010-07-27 50 views
15

Tôi đang tìm kiếm twitter hoặc các trang web mạng xã hội khác cho dự án của tôi. Tôi hiện có tập dữ liệu twitter CAW 2.0 nhưng nó chỉ chứa các tweet của người dùng. Tôi muốn một dữ liệu cho thấy số lượng bạn bè, người theo dõi và như vậy.Twitter (Mạng xã hội) Tập dữ liệu

Nó không phải là twitter nhưng tôi thích twitter hoặc facebook. Tôi đã cố gắng infochimps nhưng dường như các tập tin không thể tải về nữa cho twitter.

Ai đó có thể cung cấp cho tôi trang web tốt để tìm loại tập dữ liệu này. Tôi sẽ cung cấp dữ liệu cho hadoop.

Trả lời

7

Hãy thử ba bộ dữ liệu sau đây:

Có khoảng 97 milllion tweets:

http://demeter.inf.ed.ac.uk/index.php?option=com_content&view=article&id=2:test-post-for-twitter&catid=1:twitter&Itemid=2

ed lưu ý : tập dữ liệu được liên kết trước đây không còn khả dụng do yêu cầu từ Twitter để xóa nó.

Có đồ dùng của 47 triệu người sử dụng:

http://an.kaist.ac.kr/traces/WWW2010.html

dataset Sau chứa mạng cũng như các tweet, tuy nhiên các dữ liệu được thu thập bằng cách lấy mẫu snowball hoặc một cái gì đó vì thế mạng lưới bạn bè không phải là thống nhất. Nó có khoảng 10 triệu tweet bạn có thể gửi cho nhà nghiên cứu để có thêm dữ liệu.

http://www.public.asu.edu/~mdechoud/datasets.html

Mặc dù có xem xét giấy phép dữ liệu được phân phối theo.

Hy vọng điều này sẽ giúp, Bạn cũng có thể cho tôi biết loại công việc nào đang có kế hoạch với tập dữ liệu này không? Tôi có vài kịch bản hadoop/lợn để sử dụng với bộ dữ liệu

+0

không chắc chắn, nhưng tôi sẽ sử dụng nó cho lớp học máy của tôi. – denniss

+1

@Akshay Bhat: Dường như họ đã xóa bộ dữ liệu tính đến hôm nay. Bạn có muốn biết bất kỳ tập dữ liệu nào khác có thể có sẵn không? Cảm ơn bạn! – Legend

5

100 triệu trang được chiết xuất từ ​​facebook: http://it.slashdot.org/story/10/07/28/1350222/100-Million-Facebook-Pages-Leaked-On-Torrent-Site?art_pos=6

Tôi không biết những gì họ có, nhưng bạn có thể có một cái nhìn, có vẻ như nó dễ dàng tìm thấy trên các trang web torrent.

Bạn cũng có thể sử dụng API facebook, nhưng nếu bạn muốn tập dữ liệu đủ lớn, bạn sẽ phải yêu cầu facebook quyền truy cập vào nó. Nó chứa các liên kết đến bạn bè, thích, nhóm, ...

+1

Ngoài ra còn có một API Twitter bằng cách này. –

+0

yea Tôi đã thấy điều này.cảm ơn mặc dù – denniss

+0

lạ làm thế nào tôi đã không giành được tiền thưởng –

2

Facebook đồ thị xã hội, cài đặt ứng dụng và người dùng Last.fm, các sự kiện, các nhóm được thu thập bởi các nhà nghiên cứu tại UCIrvine: http://odysseas.calit2.uci.edu/research/

1

Tôi nghĩ rằng công cụ tốt nhất cho dữ liệu twitter thu thập là http://www.followthehashtag.com, nó có thể nhận được dữ liệu lịch sử hay trong tương lai và với dữ liệu tiên tiến xuất khẩu tính năng

với một phần mà chúng ta thêm các tập dữ liệu lớn (khoảng 200.000 tweets) mỗi tuần một lần

http://followthehashtag.com/datasets/

Các vấn đề liên quan