Tôi nghĩ rằng bạn sẽ cần một trong hai:
- phân tích danh sách đã tồn tại của english words trong Wiktionary tiếng Việt, được chiết xuất từ một bãi chứa cơ sở dữ liệu.
- tải xuống kết xuất cơ sở dữ liệu (và không chỉ các tiêu đề) và tự trích xuất các thuật ngữ.
Tôi đã thử tùy chọn a) chỉ vì tùy chọn b) sẽ ngụ ý tải xuống một vài GB. Rất đơn giản, trên thực tế, tôi bao gồm triển khai JS nhanh chóng mà bạn có thể sử dụng làm cơ sở để tạo tập lệnh của riêng mình bằng ngôn ngữ ưa thích.
var baseURL="http://en.wiktionary.org/wiki/Index:English/"
var letters=['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z']
for(i=0;i<letters.length;i++) {
var letter = letters[i];
console.log(letter);
$.get(baseURL+letter, function(response) {
$(response).find('ol li a').each(function (k,v) { console.log(v.text) })
})
}
EDIT Tôi đã khá tò mò về vấn đề bản thân mình, vì vậy tôi đã viết một kịch bản python. Chỉ trong trường hợp ai đó tìm thấy nó hữu ích:
from lxml.cssselect import CSSSelector
from lxml.html import fromstring
import urllib2
url = 'http://en.wiktionary.org/wiki/Index:English/'
letters = ['a','b','c','d','e','f','g','h','i','j','k','l','m','n','o','p','q','r','s','t','u','v','w','x','y','z']
for l in letters:
req = urllib2.Request(url+l, headers={'User-Agent' : "Magic Browser"})
con = urllib2.urlopen(req)
response = con.read()
h = fromstring(response)
sel = CSSSelector("ol li a")
for x in sel(h):
print x.text.encode('utf-8')
Tôi muốn dán kết quả vào pastebin bản thân mình nhưng giới hạn 500kb sẽ không cho phép tôi
đẹp dung dịch! Cảm ơn! –