У меня есть два файла в HDFS с одинаковым количеством строк. Строки из файлов соответствуют друг другу по номеру строки.
lines1=sc.textFile('1.txt')
lines2=sc.textFile('2.txt')
Мой вопрос: как правильно заархивировать rdd lines1 с lines2?
zipped=lines1.zip(lines2)
Zip требует одинакового размера RDD и одинаковых разделов (как я понял, учитываются не только разделы, но и одинаковое количество элементов в каждом разделе). Первое требование уже выполнено. Как обеспечить второй?
Спасибо!
Сергей.
HashPartitioner
наjoin
. 03.04.2016