Làm thế nào để sử dụng API của Wiktionary để xác định một từ có tồn tại hay không?Làm thế nào để lấy lại nội dung từ Wiktionary?
Trả lời
Có thể sử dụng Wiktionary API để truy vấn xem có tồn tại một từ hay không.
Ví dụ cho các trang hiện tại và không tồn tại:
http://en.wiktionary.org/w/api.php?action=query&titles=test
http://en.wiktionary.org/w/api.php?action=query&titles=testx
Các liên kết đầu tiên cung cấp ví dụ về các loại định dạng mà có thể được dễ dàng hơn để phân tích.
Để lấy dữ liệu của từ trong một định dạng XHTML nhỏ (nên hơn tồn tại được yêu cầu), yêu cầu phiên bản in của trang:
http://en.wiktionary.org/w/index.php?title=test&printable=yes
http://en.wiktionary.org/w/index.php?title=testx&printable=yes
Những sau đó có thể được phân tích cú pháp với bất kỳ trình phân tích cú pháp XML chuẩn nào.
Cảm ơn; bản thân API không phải là điều tôi mong đợi nhưng liên kết bạn cung cấp là những gì tôi đang tìm kiếm. – Armentage
Bây giờ, nó chấp nhận tham số định dạng bổ sung cho đầu ra xml khác như sau: https://en.wiktionary.org/w/api.php?action=query&titles=test&format=json – eenagy
Có thể không hoạt động như bạn mong đợi mặc dù https: // en.wiktionary.org/wiki/Category:English_misspellings https://en.wiktionary.org/wiki/amatuer – endolith
Có một vài hãy cẩn thận trong chỉ kiểm tra rằng Wiktionary tiếng Việt có một trang với tên mà bạn đang tìm kiếm:
Nên biết trướC# 1: Tất cả Wiktionaries bao gồm Wiktionary tiếng Việt tiếng Anh thực sự đã mục tiêu bao gồm tất cả các từ trong mọi ngôn ngữ, vì vậy nếu bạn chỉ cần sử dụng trên API gọi bạn sẽ biết rằng từ mà bạn đang hỏi về là một từ trong ít nhất một ngôn ngữ, nhưng không nhất thiết phải bằng tiếng Anh: http://en.wiktionary.org/w/api.php?action=query&titles=dicare
nên biết trướC# 2: có lẽ một chuyển hướng tồn tại từ một từ này sang một từ khác. Nó có thể là từ một cách viết khác, nhưng nó có thể là do lỗi nào đó. Cuộc gọi API trên sẽ không phân biệt giữa một chuyển hướng và một bài báo: http://en.wiktionary.org/w/api.php?action=query&titles=profilemetry
Nên biết trướC# 3: Một số Wiktionaries bao gồm Wiktionary tiếng Việt tiếng Anh bao gồm "lỗi chính tả phổ biến": http://en.wiktionary.org/w/api.php?action=query&titles=fourty
Nên biết trướC# 4: Một số Wiktionaries cho phép các mục nhập có ít hoặc không có thông tin về thuật ngữ. Điều này thường được sử dụng trên một số Wiktionary nhưng không phải là Wiktionary tiếng Anh. Nhưng nó dường như bây giờ cũng đã lan sang Wiktionary tiếng Anh: https://en.wiktionary.org/wiki/%E6%99%B6%E7%90%83 (permalink cho khi stub được điền để bạn vẫn có thể nhìn thấy những gì một stub trông giống như: https://en.wiktionary.org/w/index.php?title=%E6%99%B6%E7%90%83&oldid=39757161)
Nếu chúng không được bao gồm trong những gì bạn muốn, bạn sẽ phải tải và phân tích cú pháp wikitext, đó không phải là một nhiệm vụ tầm thường.
Điều tôi thực sự muốn làm là lấy toàn bộ dữ liệu trên một trong các trang Wikalary không phải tiếng Anh, và sau đó biến nội dung thành nội dung tôi có thể sử dụng cục bộ. Nó có vẻ ngớ ngẩn bây giờ, nhưng tôi đã hy vọng rằng tôi có thể yêu cầu danh sách của tất cả các từ, và sau đó kéo xuống defitions/bản dịch của họ tại một thời điểm khi cần thiết. – Armentage
Việc sửa chữa để Caveat # 2 rất đơn giản: thêm '& prop = info' vào truy vấn và kiểm tra phản hồi cho thuộc tính' redirect'. – svick
@svick: Vâng đúng là # 2 dễ dàng hơn để phá vỡ khi sử dụng API nhưng những điều cơ bản này cũng bao gồm việc cố gắng phân tích [tệp kết xuất dữ liệu của Wiktionary] (http://dumps.wikimedia.org/enwiktionary/), mặc dù câu hỏi này không hỏi về cách tiếp cận đó. – hippietrail
Bạn có thể muốn thử JWKTL. Tôi vừa phát hiện ra về nó;)
http://en.wikipedia.org/wiki/Ubiquitous_Knowledge_Processing_Lab#Wiktionary_API
Trích dẫn mà bạn đề cập đến bị hỏng. Đây là một liên kết đến trang JWKTL http://www.ukp.tu-darmstadt.de/software/jwktl/. Nó không thực sự những gì tôi tin rằng OP đang tìm kiếm mặc dù. – djskinner
Bạn có thể tải về một bãi chứa của Wikitionary data. Có thêm thông tin trong số FAQ. Vì mục đích của bạn, definitions dump có lẽ là lựa chọn tốt hơn so với kết xuất xml.
Các tệp kết xuất này rất lớn và không rõ tệp nào tải xuống (tất cả chúng?). Có lẽ không phải là những gì hầu hết mọi người đang tìm kiếm nó, họ chỉ muốn tìm kiếm một cách có lập trình một số ít các từ. – Cerin
Tôi giải thích tệp cần tải xuống - nghĩa là kết xuất các định nghĩa (thư mục từ liên kết của tôi chỉ là các phiên bản khác nhau của cùng một tệp) và có, nếu bạn muốn tìm kiếm các từ này là lý tưởng. Nếu bạn có thể đảm bảo chương trình sẽ chỉ được thực hiện trực tuyến, có các tùy chọn khác, tuy nhiên tôi trả lời phần này của câu hỏi ban đầu: "Ngoài ra, có cách nào tôi có thể rút dữ liệu từ điển sao lưu lại Wiktionary?" – kybernetikos
Định nghĩa liên kết đổ không còn khả dụng. –
Để giữ cho nó thực sự đơn giản, trích xuất các từ trong bãi như thế:
bzcat pages-articles.xml.bz2 | grep '<title>[^[:space:][:punct:]]*</title>' | sed 's:.*<title>\(.*\)</title>.*:\1:' > words
Tôi làm cách nào để có được một bản sao của các trang-articles.xml.bz2? – Armentage
Nó chỉ là một tên chung tôi đã sử dụng để mô tả các bãi của biểu mẫu 'LANGwiktionary-DATE-pages-articles.xml.bz2'. Truy cập [link] (http://dumps.wikimedia.org/backup-index.html), sau đó nhấp vào 'LANGwiktionary' (LANG ví dụ' en ',' de '...). – benroth
- 1. Làm thế nào để lấy lại mẫu/làm lại phổ?
- 2. Cách lấy nội dung từ tệp từ URL này?
- 3. Cách lấy nội dung của nút từ JDOM
- 4. Làm thế nào để làm cho tế bào bảng co lại theo nội dung?
- 5. Làm cách nào để lấy lại không gian từ "Grip"
- 6. Lấy nội dung mô-đun
- 7. Làm thế nào để xóa nội dung của một jTable?
- 8. Wiktionary API để phát âm?
- 9. C# Làm thế nào để nén nội dung .ashx?
- 10. Làm thế nào để pushState bảo vệ chống lại các giả mạo nội dung tiềm năng?
- 11. cách lấy (txt) nội dung tệp từ FileField?
- 12. ContentPlaceHolders: Nội dung lặp lại
- 13. Làm thế nào để lát nội dung của một CALayer?
- 14. làm thế nào để in nội dung của PYTHONPATH
- 15. Làm thế nào để xóa nội dung của WPF Grid?
- 16. Làm thế nào để cập nhật nội dung ViewPager?
- 17. Làm cách nào để lấy một loại nội dung của một tệp bằng Python? (Với url ..)
- 18. Lấy nội dung tệp bằng FTPClient Java
- 19. Lấy nội dung XML của SimpleXMLElement
- 20. Làm thế nào để ngăn chặn chrome từ nội dung tiêm vào trang web
- 21. Làm cách nào để sửa đổi nội dung của XElement?
- 22. Làm cách nào để làm mới nội dung của jsTree?
- 23. Có cách nào để lấy nội dung từ các nhóm Facebook không?
- 24. Thẻ JSP tùy chỉnh - Làm cách nào để lấy nội dung của thẻ?
- 25. cách lấy ParcelFileDescriptor cho nội dung tệp?
- 26. Làm thế nào để có được một CGImageRef từ nội dung của một UIView?
- 27. Làm thế nào để ngăn chặn nội dung nổi trong hai divs từ chồng chéo?
- 28. Làm thế nào để có được loại nội dung từ ShoutCast 7.html
- 29. Làm thế nào để cập nhật nội dung JComboBox từ ArrayList?
- 30. Làm thế nào để truy cập vào khung (không iframe) nội dung từ jQuery
Bất cứ ai đã đọc tài liệu sẽ thấy rằng các API chứa nơi nào gần đủ chức năng để "lấy nội dung từ Wiktionary tiếng Việt". Tôi ước tính nó giúp bạn đạt được khoảng 1% con đường. Bạn có thể lấy cú pháp wiki thô hoặc HTML phân tích cú pháp và từ đó bạn phải tự làm mọi thứ. Có nói rằng có thể có một API thử nghiệm rất mới chỉ hoạt động trên Wiktionary tiếng Anh. – hippietrail