Chúng tôi có hai khung dữ liệu ở đây:Làm thế nào để so sánh hai cột dataframe và in mà là khác nhau trong scala
các dataframe dự kiến:
+------+---------+--------+----------+-------+--------+
|emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site|
+------+---------+--------+----------+-------+--------+
| 3| Chennai| rahman|9848022330| 45000|SanRamon|
| 1|Hyderabad| ram|9848022338| 50000| SF|
| 2|Hyderabad| robin|9848022339| 40000| LA|
| 4| sanjose| romin|9848022331| 45123|SanRamon|
+------+---------+--------+----------+-------+--------+
và khung dữ liệu thực tế:
+------+---------+--------+----------+-------+--------+
|emp_id| emp_city|emp_name| emp_phone|emp_sal|emp_site|
+------+---------+--------+----------+-------+--------+
| 3| Chennai| rahman|9848022330| 45000|SanRamon|
| 1|Hyderabad| ram|9848022338| 50000| SF|
| 2|Hyderabad| robin|9848022339| 40000| LA|
| 4| sanjose| romino|9848022331| 45123|SanRamon|
+------+---------+--------+----------+-------+--------+
sự khác biệt giữa hai khung dữ liệu bây giờ là:
+------+--------+--------+----------+-------+--------+
|emp_id|emp_city|emp_name| emp_phone|emp_sal|emp_site|
+------+--------+--------+----------+-------+--------+
| 4| sanjose| romino|9848022331| 45123|SanRamon|
+------+--------+--------+----------+-------+--------+
Chúng tôi đang sử dụng chức năng ngoại trừ df1.except (df2), tuy nhiên vấn đề với điều này là, nó trả về toàn bộ các hàng khác nhau. Những gì chúng ta muốn là xem các cột nào khác nhau trong hàng đó (trong trường hợp này là "romin" và "romino" từ "emp_name" khác nhau). Chúng tôi đã gặp khó khăn to lớn với nó và bất kỳ sự trợ giúp nào cũng sẽ rất tuyệt vời.
Tham gia bên trong và giữ cả hai tên người dùng và xóa tất cả các hàng mà cả hai đều giống nhau. –
Bạn có thể đưa ra các giả định về dữ liệu không? ví dụ bạn có thể giả sử emp_id là duy nhất? hoặc thậm chí tốt hơn phải giống nhau và chỉ xác thực trên dữ liệu của nó là có liên quan? nếu không, tại sao hàng này khác nhau trong emp_name và không hoàn toàn khác với một trong các emp_id khác –
Câu hỏi tương tự https://stackoverflow.com/questions/44807450/how-to-compare-two-dataframes-and-print-extra- hàng-trong-một-trong-hai-datafram/44810081 # 44810081 –