2011-01-29 33 views
8

Có cách nào hiện tại để sử dụng các bãi dữ liệu của cơ sở dữ liệu tự do để tạo một cơ sở dữ liệu tương tự như những gì mà freebase cung cấp, nhưng trên máy chủ của riêng bạn? Khá nhiều cơ sở miễn phí nhưng ở địa phương và không thông qua API?Sử dụng dữ liệu freebase trên máy chủ cục bộ?

Tôi đoán nó sẽ có thể tạo, nhưng có bất kỳ giải pháp hiện có nào cho điều này chưa? Hoặc bất kỳ giải pháp thay thế nào cho dữ liệu tương tự mà không sử dụng API? Tôi đã không tìm thấy điều này cho dbpedia hoặc: |

+0

bạn có quản lý để làm như vậy không? bạn đã sử dụng giải pháp nào? tài nguyên máy tính (ram, đĩa, cpu ...) nào bạn cần? –

+0

Không, tôi không: < – freakshow

Trả lời

1

Nếu bạn có thể xuất cơ sở dữ liệu để nói, các giá trị phân tách bằng dấu phẩy hoặc dấu phẩy trong tệp TXT hoặc tệp cơ sở dữ liệu như MDB, XLS hoặc bất kỳ định dạng dữ liệu có khả năng vận chuyển cao nào khác, bạn sẽ không gặp vấn đề gì máy tính của bạn sử dụng dữ liệu đó. Điều chính là đảm bảo bạn có thể xuất dữ liệu mà từ đó bạn có thể xây dựng lại cơ sở dữ liệu của riêng bạn từ đó.

2

Nhập dữ liệu vào một cửa hàng ba lựa chọn của bạn sẽ không khó - nhưng bạn sẽ gặp khó khăn lớn khi nhận bất kỳ câu trả lời nào trong một khoảng thời gian hợp lý trừ khi bạn đang làm điều gì đó tầm thường.

Ai đó đã nhập toàn bộ tập dữ liệu vào MySQL một vài năm trước - mất 2 tuần để tải và thậm chí các truy vấn đơn giản như "đếm số thứ được nhập dưới dạng người" mất> 1 phút để trả lời. Đó là trên phần cứng lớn và số liệu lớn hơn nhiều so với lúc đó.

+0

Gotta hiểu cách dữ liệu Freebase được đặt ra và sau đó tối ưu hóa nó trước khi thử tải trong MySQL. Một cách được mô tả ở đây - http://stackoverflow.com/a/12428232/756579 (tải tất cả Freebase và thời gian phản hồi là phân số của một giây). –

3

Tôi là tác giả của :BaseKB, việc chuyển đổi có thể sử dụng đầu tiên của Freebase cho RDF.

Có các vấn đề về tính toàn vẹn khóa trong kho bãi tứ diện Freebase khiến khó có được kết quả chính xác hoàn toàn từ bãi chứa quad. : BaseKB xây dựng lại cấu trúc khóa của Freebase sao cho giả định tên duy nhất giữ. Điều này là quan trọng, bởi vì khả năng viết các truy vấn SPARQL đơn giản hoạt động giống như các truy vấn SQL phụ thuộc vào điều này.

Ngay bây giờ,: BaseKB tồn tại trong hai phiên bản. Có một phiên bản miễn phí bao gồm 120 triệu sự kiện về 4 triệu chủ đề (từ Wikipedia) và có phiên bản "Pro" chứa mọi thứ.

Đối với các vấn đề về hiệu suất do Phillip Kendall đưa ra, tôi có thể nói rằng chủ yếu là vấn đề có đủ RAM. Với 24GB RAM, tôi có thể tải phiên bản miễn phí vào một cửa hàng ba lần trong một giờ. Một số truy vấn mất nhiều thời gian hơn tôi thích, nhưng hiệu suất truy vấn tổng thể là tốt.

Bất cứ ai muốn sử dụng phiên bản "Pro" sẽ cần phần cứng mạnh mẽ bất thường và sẽ dành rất nhiều công sức để chuỗi công cụ của họ hoạt động.Tôi đang làm việc với các đối tác ngay bây giờ để cung cấp "Pro" cho người dùng một cách thỏa đáng.

+0

Paul, bạn có thể mở rộng trên phần cứng cần thiết để chạy Pro không? Bạn có thể mở rộng trên các đối tác? sao BaseKB thoát khỏi dữ liệu Freebase/DBpedia? cảm ơn –

Các vấn đề liên quan