У меня есть фрейм данных искры, который выглядит так:
+-------+-----------------------------+
|user_id| profile_features |
+-------+-----------------------------+
| 100 | [0.0, 0.33.., 0.66.., ...|
| 101 | [0.42..,0.15.., 0.57.., ...|
| 102 | [0.33..,0.0, 0.25.., ...|
| 103 | [0.15..,0.33.., 0.15.., ...|
| 104 | [0.0, 0.0, 0.33.., ...|
+-------+-----------------------------+
Как найти наиболее похожих пользователей на данного пользователя по их user_id? Я думаю о том, чтобы умножить данный user_id на другие строки (user_ids), чтобы найти их сходство, а затем каким-то образом отсортировать результирующую таблицу и вернуть самые верхние N user_ids. Если это правильный путь, как реализовать его в pyspark?