Hiện tại tôi đang phát triển một ứng dụng web để tìm nạp luồng Twitter và cố gắng tự tạo ngôn ngữ tự nhiên.Tách chuỗi có chứa các chữ cái và số không tách biệt bởi bất kỳ dấu tách cụ thể nào trong PHP
Vì dữ liệu của tôi là từ Twitter (giới hạn 140 ký tự) có nhiều từ được rút ngắn hoặc trong trường hợp này, không gian bị bỏ qua.
Ví dụ:
"Hi, my name is Bob. I m 19yo and 170cm tall"
Nên tokenized tới:
- hi
- my
- name
- bob
- i
- 19
- yo
- 170
- cm
- tall
ý rằng 19
và yo
trong 19yo
có không gian giữa chúng. Tôi sử dụng nó chủ yếu để trích xuất số với các đơn vị của họ.
Đơn giản, những gì tôi cần là một cách để 'phát nổ' mỗi mã thông báo có số trong đó bằng số hoặc chữ số mà không cần dấu phân cách.
'123abc'
sẽ ['123', 'abc']
'abc123'
sẽ ['abc', '123']
'abc123xyz'
sẽ ['abc', '123', 'xyz']
và vân vân.
Cách tốt nhất để đạt được điều đó trong PHP là gì?
Tôi đã tìm thấy thứ gì đó gần với nó, nhưng đó là C# và không đáng kể để tách ngày/tháng. How do I split a string in C# based on letters and numbers
#just tò mò, tại sao bạn cần khai thác như vậy? – hjpotter92
Tôi có thể thấy làm điều này để tạo slug động, nhưng nó cũng có thể được thực hiện chỉ với không gian/dấu chấm câu phân định. – Dutchie432
@ theo dõi chết vì nguồn dữ liệu (luồng twitter) có văn bản không nhất quán – akhyar