Сначала выиграй, потом объясни

Как желание чувствовать себя умным удерживает вас от следующего уровня

Истории, которые мы рассказываем

Вам нравится копаться в наборе данных, чтобы найти скрытые сокровища, которые пропустили все остальные? Я люблю это чувство. Это как подойти к большому незаконченному пазлу в семейной поездке и тихонько собрать его, когда никого нет рядом. В науке о данных эти кусочки головоломки представляют собой идеи или артефакты в пространстве признаков. Вы можете заметить взаимодействие, которое повышает точность предсказания при правильном кодировании, или вы можете обнаружить сигнал в неслучайных пропущенных значениях. Это важное упражнение и ценный навык, но он может привести к предубеждению «если я не могу это понять, значит, оно не настоящее», что мешает нам достичь результатов следующего уровня.

Наш разум опирается на истории, чтобы упорядочить мир. Кто-то спрашивает о моем рабочем дне, и я без проблем перечисляю только важные детали, ведущие к захватывающему инциденту, который был удачно разрешен мной, очевидным героем истории. Мы все делаем это постоянно. То же самое происходит, когда вы находите функцию, улучшающую производительность модели, и объясняете ее. «Мы заметили, что, когда летом на западном побережье идет дождь, люди делают меньше покупок, но в целом дожди не влияют на покупки на восточном побережье. Сочетание местной погоды с географическим положением и временем года улучшило наши прогнозы спроса на 7%». Сравните это с тем, что «мы добавили UV-индекс и почтовый индекс к функциям, а алгоритм черного ящика улучшил прогнозы спроса на 9%». Вы знаете, что последнее лучше, но почему-то оно неудовлетворительно или даже подозрительно.

Инженер, черт возьми, из этого

Приятно любить решать головоломки и чувствовать себя умным — это хорошая награда, но если вы хотите быть добросовестным профессионалом в области науки о данных, вы не можете полагаться исключительно на четкие объяснения. Если использование вашего воображения для выявления умных идей, которые решают проблему, является одной крайностью, то противоположным является использование инструментов для разработки решения. Я могу построить регрессионную модель с тщательно продуманными функциями, которые теоретически должны влиять на переменную результата, или я могу попробовать все парные взаимодействия функций в каждом возможном подмножестве с помощью грубой силы. Вдумчивый подход требует мощности мозга, а подход грубой силы требует вычислительной мощности. Что лучше, зависит от реальной проблемы, но понимание разницы имеет решающее значение.

Размышляя об этих крайностях, вы можете понять, что ваша предвзятость заключается в поиске быстрых и грязных решений или элегантных. Однажды меня попросили написать скрипт для удаления кучи неиспользуемых виртуальных машин. Написание сценария заняло бы около 20 минут, но мне пришлось бы ждать несколько часов, чтобы получить правильные разрешения для его запуска, поэтому вместо этого я сделал несколько ручных удалений и прикинул, что смогу сделать это грязным способом менее чем за полчаса. . Я отключил уведомления, установил таймер, и через 17 минут все было готово. Если бы мне нужно было сделать это более одного раза, я, вероятно, написал бы сценарий, но это была одноразовая очистка. Быстрый и грязный путь. Это простой пример, и ставки были низкими, но возникает вопрос: как вы принимаете образ мышления, который позволяет вам подходить к проблемам с большей гибкостью?

Заработай свой путь к умному

Мой общий совет — следовать разработанным решениям до их пределов, а затем проявлять творческий подход. Для инженеров: не просто проектируйте все к черту, потому что кто-то в конечном итоге найдет элегантный подход, который сделает вашу грубую силу ненужной и расточительной. Интересуйтесь разными областями, используйте свое воображение и идите на творческий риск на полях. Для всех остальных, запачкайте руки, прежде чем пытаться быть умным. Вам не нужно строить все самому, но вы должны понимать, что было сделано и как это работает. Экспоненциальное улучшение вычислительной мощности и инструментов превращает этот процесс в бесконечный процесс эволюции. Дорога в безвестность начинается тогда, когда вы отвлекаетесь от грязной работы.

В науке о данных высоко ценились элитные специалисты-практики за их способность вдумчиво разрабатывать функции, которые повышали производительность, оставаясь при этом понятными для нетехнической аудитории. Сегодня это не так ценится. Например, достижения в области компьютерного зрения продемонстрировали, что сверточные нейронные сети, обладающие достаточным объемом данных и вычислительной мощностью, могут всего за несколько дней превзойти десятилетнюю разработку признаков, управляемую человеком. Несмотря на то, что все еще существует множество приложений, в которых важна тщательная разработка функций, обычно это связано с нехваткой данных или непомерно высокими затратами. Важно понять, что многие ценные навыки сегодня будут сведены к нескольким строкам кода в будущем. Вопрос, который вы должны задать себе, заключается в том, насколько близко это будущее?

На практике

Как практик и человек, вы должны справляться с противоречием между вашим желанием объяснить вещи и вашими целями. Иногда лучшие решения прекрасно вписываются в четкое повествование, простое, обобщаемое и удовлетворительное. Если вы можете найти такие решения, наслаждайтесь ими. Но когда вы можете улучшить производительность без четкого объяснения, это не должно быть недостатком. Хотя я не могу дать вам стратегию того, как подходить ко всем проблемам, я могу дать вам некоторые рекомендации, которые, надеюсь, помогут вам разобраться в этих вещах самостоятельно.

Начните с более широкого контекста и оцените относительное значение чистой производительности. Если вы прогнозируете колебания цен на акции внутридневной торговли, объяснимость не имеет значения. Никого не будет волновать, если вы не сможете объяснить что-то, что приносит стабильную прибыль. В качестве альтернативы, если вы прогнозируете начало заболевания, понимание факторов, которые могут его вызвать, может помочь людям принять решение по его предотвращению. Учитывая более широкий контекст, инвестируйте время и усилия пропорционально. Если понимание более ценно или с большей вероятностью повлияет на производительность, сначала изучите данные, а затем разработайте решения. Если производительность грубой силы, вероятно, сработает, сначала отдайте приоритет инженерной инфраструктуре, а затем приступайте к творчеству. Проблемное пространство должно формировать ваш подход, а не ваше желание рассказать хорошую историю о решении.

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Developer Neural Networks Computer Science NLP