2011-12-05 34 views
21

Tôi đã có một ý tưởng hay để thực hiện. Tôi gọi nó làLàm thế nào để phân tích tin nhắn twitters? (cải thiện thuật toán của tôi)

FixTheUnFixed

Ý tưởng đi như thế này, hãy tưởng tượng bạn đang lái xe hoặc đi du lịch khắp nơi trên thế giới và khi bạn nhìn thấy một số trở ngại hoặc thiệt hại - bị phá vỡ ánh sáng, thùng rác trong đó bao gồm tất cả các đường phố hoặc bất kỳ vấn đề nào khác mà bạn muốn cơ quan có thẩm quyền sẽ khắc phục.

tất cả những gì bạn phải làm là tweet một cái gì đó như thế, và bạn có thể thêm ảnh và tất nhiên vị trí, sử dụng dịch vụ vị trí kế thừa của ứng dụng twitter hoặc Facebook.

Tweet như thế này:

@FixTheUnFixed there is a broken fire hydrant here 
@FixTheUnFixed my cellular company charged me 18,572$ 
    for using my iPhone aboard. 

Tôi suy nghĩ rất nhiều về cách khai thác chế biến các thông điệp. hầu hết các vấn đề sẽ xảy ra là các vấn đề về đô thị và tôi muốn nhận vị trí và đăng lại vào khu đô thị có liên quan hoặc gửi email cho họ.

hai ý tưởng của tôi để nhận địa chỉ này là bởi google nó (với google API).

thuật toán giả là:

1. get the location the Twitter's or Facebook's status sent from. 
2. look for key words such as trash, cats, animals etc. 
3. finding the relevant authority e-mail , twitter or Facebook account. 
4. send the message to the authority account and re-tweet it to the public 
    world so they can follow if there is any change. 
  • Trong 3. @ algo là có cách nào thông minh để thực hiện nó?
  • Tôi không muốn spam các nhà chức trách và không xuất bản thư rác số những người lén lút.
  • Làm cách nào để cải thiện thuật toán ở trên?
  • Tôi làm cách nào để tìm kiếm tài nguyên liên lạc của chính quyền ?
+0

Tôi cũng sẽ không khuyên bạn nên chia sẻ ý tưởng ở những nơi như vậy hoặc bạn thấy ý tưởng của mình xuất hiện trong các trang web khác. – Tarik

+1

Ý tưởng tuyệt vời, thực sự. Tôi nghĩ rằng một cái gì đó giống như mô hình quan sát/nghe có thể làm việc. Các cơ quan khác nhau ('đã đăng ký') có thể đăng ký từ khóa. Để ngăn ngừa xung đột - bạn có thể triển khai một số loại 'đấu giá' cho từ khóa. Chắc chắn đó chỉ là một bình luận đoán. –

+4

@Braveyard Thành công xuất phát từ việc triển khai tuyệt vời, không phải từ ý tưởng hay – rds

Trả lời

0

Tôi nghĩ điều đúng đắn cần làm là sử dụng thư viện hiện tại NLP như Stanford nlp library.

Trong đó bao gồm:

  • Stanford CoreNLP
  • Stanford Parser
  • Stanford Classifier

Ngoài ra, bạn có thể sử dụng opennlp hoặc nltk. Nếu khung NLP là trong java và bạn muốn sử dụng python hoặc ruby ​​như OP muốn kiểm tra jrubyjython.

8

Đề xuất của tôi là bắt đầu bằng cách sử dụng Amazon Mechanical Turk - trả tiền cho những người thực sự một khoản phí nhỏ cho mỗi tweet họ xử lý. Họ sẽ cần phải xác định xem đó có phải là thư rác hay không, sau đó, nếu hợp pháp, họ sẽ tìm kiếm thông tin liên lạc chính xác của đô thị. Trong khi đó, thu thập số liệu thống kê chi tiết về mỗi tweet được xử lý, từ đó bạn có thể xây dựng một cơ sở dữ liệu. Ví dụ, bạn sẽ có thể thấy rằng tất cả các tweet chứa "Garbage" và "Chicago" tạo ra một câu trả lời với một số điện thoại nhất định. Sau khi bạn có đủ dữ liệu, bạn có thể sử dụng nó để tự động hóa các tweet được gửi đến/được chỉ định rõ ràng và dần dần xây dựng từ đó, liên tục tinh chỉnh dữ liệu của bạn & các kết hợp sử dụng nghiên cứu do công nhân Turk thực hiện.

Cũng sẽ đề xuất chỉ triển khai dịch vụ cho các khu vực hạn chế để bắt đầu - ví dụ: New York hoặc London. (Hoặc thành phố lớn nhất gần bạn ở đâu) Bằng cách đó, thông tin cần thiết để bắt đầu với nhỏ hơn nhiều.

+0

@ J.F. Sebastian - Vâng, chính xác, cảm ơn vì đã nói rõ ràng và liên kết với thư viện đó. – mongiesama

+0

Tốt hơn, thay vào đó, cơ sở dữ liệu sử dụng dữ liệu đầu ra từ dữ liệu tweet cộng (vị trí, từ khóa, v.v.) để đào tạo Mạng Neural để đưa ra dự đoán cho các tweet trong tương lai. Nếu mọi việc suôn sẻ, bạn sẽ sử dụng Turk ít hơn và ít đi theo thời gian. – maximdim

4

Là một bước đầu tiên hướng tới giải pháp của bạn, tôi sẽ đề nghị cắm vĩ độ/kinh độ vào SimpleGeo (họ có một thư viện iOS): http://simplegeo.com

Sử dụng một cái gì đó như "Tìm ranh giới xung quanh một vị trí", bạn có thể lấy thông tin về quận, đô thị, huyện lập pháp, v.v.mà có thể cung cấp cho bạn hỗ trợ siêu dữ liệu cũng như một vài cửa hàng để đào cho thông tin liên lạc:

https://simplegeo.com/docs/api-endpoints/simplegeo-context#find-boundaries-surrounding-location

Ví dụ, tôi chắc chắn rằng bạn có thể biến các huyện lập pháp vào địa chỉ email của một thành viên của Đại hội thông qua một số trang web/API công khai. Có lẽ gửi văn phòng của họ một email hàng tuần hoặc hàng tháng email của tất cả các vấn đề được báo cáo trong huyện của họ và gây áp lực lên các quan chức được bầu để ban hành sự thay đổi thích hợp?

Một tùy chọn khác có thể là hiển thị cơ sở dữ liệu của bạn về các vấn đề được báo cáo trên trang web công khai và thu thập thông tin liên hệ thích hợp thông qua tìm nguồn cung ứng đám đông. Cho phép các thành viên của trang web thêm/cập nhật địa chỉ email có thể được sử dụng cho các vấn đề và sự cố hiện đang được báo cáo mà bạn có thể nhận được cho cùng một vị trí trong tương lai.

2

ifttt.com có ​​thể được sử dụng cho điều này? một dịch vụ của nó để tự động hóa một hành động dựa trên tiêu chí tùy chỉnh của bạn.

có thể bạn có thể kết nối với họ?

Các vấn đề liên quan