2013-07-20 31 views
8

Tôi hiện đang lập kế hoạch một dự án lớn có chứa dữ liệu lớn.Nhập cơ sở miễn phí vào Triplestore

Tôi đã sử dụng tìm kiếm và tất cả kết quả cho tôi biết rằng nó không thể nhập khẩu Freebase vào bất kỳ triplestore mà không cần sử dụng 3rd Party Các công cụ như BaseKB hoặc Freebase to RDF

Như tôi đã có thể thấy, bãi đã có sẵn như RDF , vậy đâu là vấn đề nếu tôi muốn nhập các bãi chứa vào kho 4store của tôi và truy cập dữ liệu qua SPARQL?

+0

Bạn có nhập dữ liệu miễn phí vào cửa hàng ba không? Nếu có, mất bao nhiêu thời gian để hoàn tất quy trình và cấu hình máy bạn đã sử dụng là gì. Tôi cũng đang có kế hoạch nhập dữ liệu. Vì vậy, xin vui lòng cho tôi biết các chi tiết. Cảm ơn – vinod

Trả lời

3

Đối với mọi người gặp sự cố khi nhập đổ khuôn Freebase:

1) Cập nhật trình phân tích cú pháp RDF/Turtle của bạn. (Phiên bản mới nhất của raptor 2 có thể nhận dạng '.', Ví dụ: tại ns: common.topic.notable_for.example

2) Kết xuất phải được dọn sạch trước khi bạn có thể nhập.Tôi đã từng scipt này: http://people.apache.org/~andy/Freebase20121223/ (fixit)

3) Các đặc điểm kỹ thuật Rùa chỉ cho phép những nhân vật này cho URI:

::= '<' ([^#x00-#x20<>\"{}|^`\] | UCHAR)* '>' 

Vì vậy, nó rất quan trọng để thêm dòng này vào kịch bản fixit tại dòng 80:

$X =~ s/\\>/%3E/g ; 
$X =~ s/\\.//g ; 

# Add this Line 
$X =~ [\x00-\x20\<\>\"\{\}\|\^\`] ; 

$obj = "<".$X.">" ; 

kết quả là, cú pháp hợp lệ như thế này:

<http://www.wikipedia.org/object?key={invalid_braces}> 

trở thành

<http://www.wikipedia.org/object?key=invalid_braces> 
2

Bạn có lẽ nhận được kết quả tìm kiếm từ ít nhất hai, nếu không ba, khác với các tập dữ liệu:

  1. định dạng quad cũ đổ
  2. đầu RDF bãi
  3. (có lẽ) các RDF hiện tại dump

Định dạng trong # 1 là chuyển đổi bắt buộc. Các bãi RDF đầu tiên (# 2) không hợp lệ về cú pháp, do đó sẽ không nhập vào hầu hết các công cụ. Vùng đổ RDF đã được cải thiện theo thời gian. Tôi không chắc liệu nó có đúng là nó sẽ không nhập vào mà không cần tiền xử lý, nhưng, bất kể nó sẽ hữu ích hơn nếu bạn xử lý trước để loại bỏ dự phòng, bình thường hóa định dạng phù hợp nhất với ứng dụng, v.v.

Bạn đã thử nhập phân đoạn hiện tại chưa? Kết quả của bạn là gì?

+0

Cảm ơn câu trả lời nhanh của bạn. Hôm nay tôi đã ra lệnh cho một máy chủ gốc, cài đặt 4store, DL Freebase Dump và chia nhỏ nó cho 10.000.000 bộ ba cho mỗi tệp. Bây giờ tôi gặp lỗi khi nhập: "Tệp URI: /// root/freebase/xaa: 8 lỗi raptor - lỗi cú pháp". Có một vấn đề với cú pháp rùa của FreeF RDF chung? – smith64fx

+0

Dòng đầu tiên gây ra "lỗi cú pháp": ns: american_football.football_historical_roster_position.number ns: type.property.expected_type ns: type.int. – smith64fx

+1

Tôi đã sửa nó ... Sau khi cập nhật Raptor2, nó hoạt động ngay bây giờ với sự trợ giúp của sửa lỗi tốt đẹp này: http://people.apache.org/~andy/Freebase20121223/ – smith64fx

1

Vấn đề với bãi chứa rùa tự do là điều này, chúng không tương thích với đặc tả rùa w3c.

1) theo http://www.w3.org/TR/turtle/#sec-grammar, ký tự '.' chỉ có thể xuất hiện ở cuối của ba, tuy nhiên, kết xuất cơ sở tự do có nhiều '.' trước khi kết thúc ba. Tôi đọc ở đâu đó rằng "/" không được phép cũng như uri bên ngoài, vì vậy, họ thay vào đó đã chọn sử dụng '.'

thư viện raptor2 mới nhất có thể làm được việc này (''), nhưng không phải là những người lớn tuổi

2) Tôi nghĩ con đường phát ra 'nút trống' cũng là không hợp lệ cho ví dụ dòng 141567 ns: m.01000m1 ns: common.topic.notable_for.

+0

1) Cập nhật Raptor2 – smith64fx

Các vấn đề liên quan