У меня проблема, когда мне приходится читать данные из нескольких источников данных, т.е. RDBMS (MYSQL, Oracle) и NOSQL (MongoDb, Cassandra) в HDFS через Hive (пошагово).
Apache Sqoop отлично работает с RDBMS, но не работает с NOSQL, по крайней мере, мне не удалось его успешно использовать (я пытался использовать драйвер JDBC для Mongo... Он смог подключиться к Mongo, но не смог нажать в HDFS)
ЕСЛИ кто-нибудь проделал какую-либо работу, связанную с этим, и может поделиться ею, было бы очень полезно