Я начал свою карьеру в качестве специалиста по данным/принятию решений еще в начале 2010-х.

R де-факто является языком науки о данных. SAS по-прежнему крут.

TensorFlow еще не выпущен!

Глубокое обучение, что???

И теперь я вижу, как люди, едва закончившие колледж, бросаются якобы причудливым жаргоном глубокого обучения с веселой энергией.

Ландшафт отрасли науки о данных значительно изменился, но одно осталось неизменным.

Все до сих пор совершают ту же ошибку, которая была распространена, когда я пришел в индустрию. Слишком много внимания уделяется алгоритмам машинного обучения, не говоря уже о лежащей в основе математике и всей экосистеме индустрии науки о данных.

Но чего я не могу понять, так это материнского отношения к Data Engineering.

Скачивание нескольких сотен строк тщательно подготовленных данных в формате CSV, импортирование их в локальную систему и запуск стандартных машинных библиотек — это хорошо для маленьких шагов и развития интуитивного понимания на очень высоком уровне, но что, если размер данных измеряется гигабайтами?

А терабайты данных? петабайты ??

Именно здесь большинство людей, входящих в отрасль, оказываются в глубокой воде.

Перестаньте относиться к разработке данных так, как четырехлетний старик смотрит на брокколи в своей тарелке.

Я не могу не подчеркнуть этого достаточно. Инжиниринг данных — это, пожалуй, самый важный компонент жизненного цикла проекта по науке о данных.

Предприятие не создает никакой ценности, когда мы недели на точную настройку модели повышаем точность на 0,07.

Это создает ценность, когда мы запускаем модель в производство, чтобы заинтересованные стороны могли начать использовать ее для принятия ключевых решений.

Итог: думайте об инженерии данных как об овощах на нашей тарелке. Если на то пошло, это может выглядеть необычно или иметь приятный вкус, но вы не можете убежать от него слишком долго. И, изучив тонкости обработки данных, вы окажете себе и своему предприятию огромную услугу. И в процессе вы, возможно, сможете отдать должное тегу "Data Scientist" в своей должности.

Пожалуйста, не стесняйтесь, дайте мне знать, как вы себя чувствуете в своих комментариях.