Ознакомительное еженедельное обновление - 3 декабря

Вот еженедельное обновление Exploratory. Список вещей, которые мне показались интересными и которыми я хотел с вами поделиться.

  • Что мы читаем / думаем
  • Интересные данные
  • Что мы пишем / анализируем
  • Над чем мы работаем

Что мы читаем

2017 Состояние науки о данных и машинного обучения



Если вы не знаете, Kaggle - это платформа для конкурса Data Science, на которой специалисты по обработке данных соревнуются за создание более совершенных моделей прогнозирования. Недавно они провели опрос, задавая вопросы многим пользователям Kaggle о Data Science / Machine Learning, и поделились результатами.

Ответили 16 000 человек со всего мира и из многих отраслей. Вы можете найти интересную информацию о том, кто они и как занимаются наукой о данных. Вот несколько интересных тем, которые мне показались интересными.

Как называется твоя работа?

Что касается названий должностей, кажется, что до сих пор нет конкретных определений людей, которые занимаются наукой о данных. Среди клиентов нашего исследовательского центра также есть специалисты по анализу данных, аналитики данных, бизнес-аналитики, исследователи, статистики и т. Д., Но все они делают очень похожие вещи. Я думаю, что по мере быстрого развития этой области науки о данных мы увидим более размытые различия между традиционным смыслом названий должностей.

Какова ваша годовая зарплата при полной ставке?

Заработная плата специалистов по анализу данных известна как очень высокая по сравнению с другими должностями, и это отнюдь не улучшается. (Тем не менее, лучше для специалистов по анализу данных!) В приведенной ниже таблице показаны зарплаты для всех должностей, указанных в этом опросе.

Но если мы посмотрим на это только для специалистов по анализу данных, средняя зарплата вырастет до 122 500 долларов.

Кстати, то, что специалисты по анализу данных получают высокую зарплату в Соединенных Штатах, не означает, что они дорогие везде. Например, средняя зарплата в Японии составляет всего 63,7 тысячи долларов, что составляет половину от стоимости в США! Хотя выборка очень мала, чтобы сделать однозначный вывод, это недалеко от того, что я слышу от наших друзей и клиентов в Японии.

Какие методы науки о данных используются в работе?

Вы также можете увидеть, какие алгоритмы машинного обучения популярны среди тех, кто ответил на Kaggle.

Это немного удивительно, хотя для тех, кто занимается наукой о данных каждый день, это не так уж важно, старая добрая логистическая регрессия является наиболее часто используемым алгоритмом среди специалистов по анализу данных. После этого идут Random Forest, Decision Tree, Gradient Booster Machines (например, XGBoost).

Алгоритмы, связанные с глубоким обучением, такие как нейронная сеть, CNN, RNN и т. Д., Используются не так часто, как другие, хотя они популярны среди инженеров машинного обучения (ML).

Эта разница между специалистами по данным и инженерами машинного обучения важна, особенно когда вы хотите расставить приоритеты, чему научиться для своей карьеры и бизнеса.

StitchFix - первый стартап по персональному стайлингу AI вышел на IPO

Прошло уже две недели, но на IPO вышла услуга персонального моделирования одежды под названием StitchFix. Она известна как компания, занимающаяся наукой о данных, чью команду по науке о данных возглавляет директор по алгоритмам.

Сейчас это немного устарело, но они опубликовали очень подробное объяснение внутренней работы своей системы ИИ, которая ранжирует и оптимизирует, какие предметы одежды (Fix) отправлять кому, когда и как, с красивой анимированной графикой.



Для меня наиболее важным здесь является то, что StitchFix успешно построил систему партнерства между людьми (профессиональные стилисты) и ИИ (система личных рекомендаций), которая может извлечь максимум из каждого и дополнить друг друга. . Я верю, что это будущее искусственного интеллекта. ИИ не заменит нас, в отличие от многих людей, о которых беспокоятся. Однако люди с искусственным интеллектом заменят множество людей и предприятий, которые опоздали с внедрением искусственного интеллекта.

Интервью: Брэд Клингенберг, StitchFix о расшифровке моды с помощью аналитики и машинного обучения



Вот еще одна старая, но очень интересная статья о том, как StitchFix использует AI.

Меня по-прежнему восхищает удивительная эффективность сочетания людей и машин. Ключ к этому подходу - найти сильные стороны каждого. Изучение того, где должны быть границы и как оптимально использовать обратную связь, - чрезвычайно интересная проблема - я уверен, что мы увидим ее гораздо больше в ближайшие годы.

Другие







Интересные данные

Данные о посетителях ресторана от рекрута



Очень большая и прогрессивная японская компания, которую я не могу объяснить одним предложением, недавно запустила конкурс Kaggle с общим вознаграждением в 25 000 долларов. Вы можете принять участие, построив лучшую модель, чтобы предсказать, сколько будущих посетителей примет ресторан. Даже если вы не участвуете в программе, вы все равно можете загрузить данные для улучшения своих навыков в области науки о данных. Есть люди, которые делятся замечательными работами EDA (исследовательского анализа данных), которые стоит проверить.

Данные о преступности в США



ФБР собирает и публикует данные о преступности в США. Данные суммируются по государству, типу преступления, году и т. Д.

Данные о судебном преследовании за терроризм в США



«Эта база данных с информацией о судебных преследованиях и приговорах, связанных с терроризмом, была создана с использованием публичных записей, включая три списка судебных преследований Министерства юстиции США (за 2010, 2014 и 2015 годы), судебные файлы, доступные через систему управления делами федеральной судебной системы, пресс-релизы Министерства юстиции, и данные о заключенных из Управления тюрем. «

Что мы пишем / анализируем

На прошлой неделе я опубликовал два сообщения в блоге, связанных с биткойнами.

Получение биткойн-данных и визуализация за 3 шага от Кан



Можем ли мы предсказать цену биткойнов с помощью Google Trend? Кан



И на этой неделе я опубликую еще два для этой серии биткойнов с алгоритмами прогнозирования и обнаружения аномалий, следите за обновлениями!

Над чем мы работаем?

Мы постоянно и настойчиво работаем над разработкой v4.2.

Как упоминалось выше, старый добрый логистическая регрессия - самый популярный инструмент среди многих специалистов по анализу данных, и вы можете использовать его в Exploratory уже сегодня.



Но с v4.2 вы сможете быстро получить к нему доступ в представлении Analytics как часть регрессионного анализа.

Если вы хотите предсказать что-то, что имеет два результата, например, будут ли клиенты конвертировать или нет, станут ли они лояльными клиентами или нет и т. Д., Вы можете использовать Логистическая регрессия, чтобы проанализировать, как во многом каждая переменная будет иметь влияние на результат.

Обучение бустеру Data Science Booster

Как упоминалось ранее, в январе мы проведем 10-часовое онлайн-обучение (Ссылка), чтобы вооружить вас мощными методами Data Science, включая машинное обучение, визуализацию данных и анализ данных. Посетите нашу домашнюю страницу Booster Training для получения более подробной информации.



На этой неделе все.

Удачной вам недели!

Кан, исследовательский / генеральный директор