2012-07-20 54 views
6

Tôi có vectơ các câu được quét từ các tài liệu viết tay. Trong quá trình đó đã có một số vấn đề khoảng cách như thế này:R Regex/gsub: Cách thu gọn dấu cách trong một chuỗi

The d og is br own. 

Tôi đã tò mò nếu có một cách để quát mất bất kỳ mô hình với '_x_' hoặc không gian ký tự không gian và sụp đổ không gian thứ hai như thế này:

The d og is br own. --> The dog is br own. 

Tôi chỉ lo lắng về một ký tự đơn giữa các khoảng trắng ('_x_' NOT '_xx_').

Mọi đề xuất?

+1

Tôi không biết làm thế nào bạn có thể xác định rằng "The d og" nên là "Con chó" hoặc "Thed og" không có kho văn bản. –

+0

@JoshuaUlrich: Đồng ý, tôi đang cố gắng để xem liệu có một cách để thống nhất sụp đổ hoặc không gian đầu tiên hoặc thứ hai trên tất cả chúng, sau đó cho phép kiểm tra chính tả có một cái nhìn vào nó và xem nó như thế nào. – screechOwl

+0

Ồ, duh ... đã bỏ lỡ phần đó. Đoán đó là thời gian cho một số giấc ngủ. –

Trả lời

4

lẽ

> x<-"The d og is br own." 
> gsub(" (.) "," \\1",x) 
[1] "The dog is br own." 

hoặc

gsub(" ([[:alnum:]]) "," \\1",x) 

(.) phù hợp với bất cứ điều gì ([[:alnum:]]) trận ký tự chữ và duy nhất.

+0

Điều đó đã làm điều đó, cảm ơn bạn rất nhiều! – screechOwl

Các vấn đề liên quan