Ознакомительное еженедельное обновление - 3 декабря

Вот еженедельное обновление Exploratory. Список вещей, которые мне показались интересными и которыми я хотел с вами поделиться.

Что мы читаем / думаем
Интересные данные
Что мы пишем / анализируем
Над чем мы работаем

Что мы читаем

2017 Состояние науки о данных и машинного обучения

Состояние машинного обучения и науки о данных, 2017 г.
Общая картина состояния науки о данных и машинного обучения, в которой рассказывается, кто работает с данными, что… www.kaggle.com

Если вы не знаете, Kaggle - это платформа для конкурса Data Science, на которой специалисты по обработке данных соревнуются за создание более совершенных моделей прогнозирования. Недавно они провели опрос, задавая вопросы многим пользователям Kaggle о Data Science / Machine Learning, и поделились результатами.

Ответили 16 000 человек со всего мира и из многих отраслей. Вы можете найти интересную информацию о том, кто они и как занимаются наукой о данных. Вот несколько интересных тем, которые мне показались интересными.

Как называется твоя работа?

Что касается названий должностей, кажется, что до сих пор нет конкретных определений людей, которые занимаются наукой о данных. Среди клиентов нашего исследовательского центра также есть специалисты по анализу данных, аналитики данных, бизнес-аналитики, исследователи, статистики и т. Д., Но все они делают очень похожие вещи. Я думаю, что по мере быстрого развития этой области науки о данных мы увидим более размытые различия между традиционным смыслом названий должностей.

Какова ваша годовая зарплата при полной ставке?

Заработная плата специалистов по анализу данных известна как очень высокая по сравнению с другими должностями, и это отнюдь не улучшается. (Тем не менее, лучше для специалистов по анализу данных!) В приведенной ниже таблице показаны зарплаты для всех должностей, указанных в этом опросе.

Но если мы посмотрим на это только для специалистов по анализу данных, средняя зарплата вырастет до 122 500 долларов.

Кстати, то, что специалисты по анализу данных получают высокую зарплату в Соединенных Штатах, не означает, что они дорогие везде. Например, средняя зарплата в Японии составляет всего 63,7 тысячи долларов, что составляет половину от стоимости в США! Хотя выборка очень мала, чтобы сделать однозначный вывод, это недалеко от того, что я слышу от наших друзей и клиентов в Японии.

Какие методы науки о данных используются в работе?

Вы также можете увидеть, какие алгоритмы машинного обучения популярны среди тех, кто ответил на Kaggle.

Это немного удивительно, хотя для тех, кто занимается наукой о данных каждый день, это не так уж важно, старая добрая логистическая регрессия является наиболее часто используемым алгоритмом среди специалистов по анализу данных. После этого идут Random Forest, Decision Tree, Gradient Booster Machines (например, XGBoost).

Алгоритмы, связанные с глубоким обучением, такие как нейронная сеть, CNN, RNN и т. Д., Используются не так часто, как другие, хотя они популярны среди инженеров машинного обучения (ML).

Эта разница между специалистами по данным и инженерами машинного обучения важна, особенно когда вы хотите расставить приоритеты, чему научиться для своей карьеры и бизнеса.

StitchFix - первый стартап по персональному стайлингу AI вышел на IPO

Прошло уже две недели, но на IPO вышла услуга персонального моделирования одежды под названием StitchFix. Она известна как компания, занимающаяся наукой о данных, чью команду по науке о данных возглавляет директор по алгоритмам.

Сейчас это немного устарело, но они опубликовали очень подробное объяснение внутренней работы своей системы ИИ, которая ранжирует и оптимизирует, какие предметы одежды (Fix) отправлять кому, когда и как, с красивой анимированной графикой.

Обзор алгоритмов Stitch Fix.
Как наука о данных вплетена в структуру Stitch Fix. algorithmms-tour.stitchfix.com

Для меня наиболее важным здесь является то, что StitchFix успешно построил систему партнерства между людьми (профессиональные стилисты) и ИИ (система личных рекомендаций), которая может извлечь максимум из каждого и дополнить друг друга. . Я верю, что это будущее искусственного интеллекта. ИИ не заменит нас, в отличие от многих людей, о которых беспокоятся. Однако люди с искусственным интеллектом заменят множество людей и предприятий, которые опоздали с внедрением искусственного интеллекта.

Интервью: Брэд Клингенберг, StitchFix о расшифровке моды с помощью аналитики и машинного обучения

Интервью: Брэд Клингенберг, StitchFix о декодировании моды с помощью аналитики и машинного обучения
Брэд Клингенберг, директор по алгоритмам стилизации в Stitch Fix в Сан-Франциско. Его команда использует данные и… www.kdnuggets.com

Вот еще одна старая, но очень интересная статья о том, как StitchFix использует AI.

Меня по-прежнему восхищает удивительная эффективность сочетания людей и машин. Ключ к этому подходу - найти сильные стороны каждого. Изучение того, где должны быть границы и как оптимально использовать обратную связь, - чрезвычайно интересная проблема - я уверен, что мы увидим ее гораздо больше в ближайшие годы.

Другие

9 странных и удивительных выводов науки о данных
Данные - самый мощный и процветающий неестественный ресурс в мире. По большей части накапливается как побочный продукт рутинной работы… opendatascience.com

Некоторые новые пакеты временных рядов
На этой неделе я закончил предварительные версии двух новых пакетов R для анализа временных рядов. Первый (tscompdata… robjhyndman.com

Соберите векторы слов, возьмите 2!
Несколько недель назад я написал сообщение о поиске векторов слов с использованием принципов аккуратных данных, основанного на подходе, описанном… juliasilge.com

Интересные данные

Данные о посетителях ресторана от рекрута

Прогнозирование количества посетителей ресторана
Предскажите, сколько будущих посетителей получит ресторан www.kaggle.com

Очень большая и прогрессивная японская компания, которую я не могу объяснить одним предложением, недавно запустила конкурс Kaggle с общим вознаграждением в 25 000 долларов. Вы можете принять участие, построив лучшую модель, чтобы предсказать, сколько будущих посетителей примет ресторан. Даже если вы не участвуете в программе, вы все равно можете загрузить данные для улучшения своих навыков в области науки о данных. Есть люди, которые делятся замечательными работами EDA (исследовательского анализа данных), которые стоит проверить.

Данные о преступности в США

Загрузки и документация
Crime Data Explorer публикует общенациональные данные о преступности, собранные ФБР, в открытом и доступном формате. Crime-data-explorer.fr.cloud .gov

ФБР собирает и публикует данные о преступности в США. Данные суммируются по государству, типу преступления, году и т. Д.

Данные о судебном преследовании за терроризм в США

Trial and Terror - набор данных от ddjdemos
База данных Trial and Terrorism компании Intercept, ежедневно синхронизируемая с базовым репозиторием GitHub. data.world

«Эта база данных с информацией о судебных преследованиях и приговорах, связанных с терроризмом, была создана с использованием публичных записей, включая три списка судебных преследований Министерства юстиции США (за 2010, 2014 и 2015 годы), судебные файлы, доступные через систему управления делами федеральной судебной системы, пресс-релизы Министерства юстиции, и данные о заключенных из Управления тюрем. «

Что мы пишем / анализируем

На прошлой неделе я опубликовал два сообщения в блоге, связанных с биткойнами.

Получение биткойн-данных и визуализация за 3 шага от Кан

Получение данных о биткойнах и визуализация за 3 шага
Существует список данных, связанных с биткойнами, таких как исторические цены в долларах США или других валютах, объемы транзакций… blog .exploratory.io

Можем ли мы предсказать цену биткойнов с помощью Google Trend? Кан

Можем ли мы предсказать цену биткойнов с помощью Google Trend?
Это вторая публикация в серии данных« Анализ цен на биткойны . Если нет, можете заглянуть на… blog.exploratory.io »

И на этой неделе я опубликую еще два для этой серии биткойнов с алгоритмами прогнозирования и обнаружения аномалий, следите за обновлениями!

Над чем мы работаем?

Мы постоянно и настойчиво работаем над разработкой v4.2.

Как упоминалось выше, старый добрый логистическая регрессия - самый популярный инструмент среди многих специалистов по анализу данных, и вы можете использовать его в Exploratory уже сегодня.

Краткое введение в логистическую регрессию в исследовательской работе
Мы добавили более простой способ построения, прогнозирования и оценки некоторых хорошо известных регрессионных моделей, таких как… blog.exploratory.io

Но с v4.2 вы сможете быстро получить к нему доступ в представлении Analytics как часть регрессионного анализа.

Если вы хотите предсказать что-то, что имеет два результата, например, будут ли клиенты конвертировать или нет, станут ли они лояльными клиентами или нет и т. Д., Вы можете использовать Логистическая регрессия, чтобы проанализировать, как во многом каждая переменная будет иметь влияние на результат.

Обучение бустеру Data Science Booster

Как упоминалось ранее, в январе мы проведем 10-часовое онлайн-обучение (Ссылка), чтобы вооружить вас мощными методами Data Science, включая машинное обучение, визуализацию данных и анализ данных. Посетите нашу домашнюю страницу Booster Training для получения более подробной информации.

Обучение анализу данных
Наука о данных предназначена не только для специалистов по анализу данных. Это для всех. Начните изучать науку о данных без программирования! exploratory.io

На этой неделе все.

Удачной вам недели!

Кан, исследовательский / генеральный директор

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Finance Data Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer NLP Computer Science

Ознакомительное еженедельное обновление - 3 декабря