Nano Hash - криптовалюты, майнинг, программирование

Публикации по теме 'scikit-learn'


Расчет важности функции с перестановкой для объяснения модели — Пример прогнозирования дохода
Важность признаков измеряет вклад признаков в предсказание. Его можно использовать для выбора функций и задач XAI (объяснимый ИИ). Метод перестановки может быть одним из наиболее интуитивно понятных методов, используемых при расчете важности признаков. В этом посте я хотел бы поделиться тем, как перестановка используется для расчета важности функции. Объяснение перестановки Коды перестановки Важность функции в простом…

Линейная регрессия не дает наилучших результатов?
This is the third article in ML_Algorithms_A_to_Z Series: * Which focuses primarily on What to do if Linear Regression is not the right fit? or scenarios when Linear Regression tends to overfit? Link to previous article 📝:- You can refer to the previous article which covers the 4 fundamental assumptions of Linear Regression basics. This series can be effectively used as a quick refresher for Data Science Interview preparations as we go from ground-up to Intermediate level..

Линейная регрессия с нуля в Python.
A. Что такое линейная регрессия? Линейная регрессия — одна из базовых моделей машинного обучения. Мы можем рассматривать алгоритм обучения как черный ящик и не беспокоиться о внутренних деталях реализации, но хорошее понимание того, как работает механизм линейной регрессии, может дать вам следующие преимущества. Во-первых, вы можете быстро выбрать подходящую модель и точно настроить гиперпараметры. Во-вторых, хорошее понимание линейной регрессии поможет вам отлаживать модель. Наконец,..

Введение в библиотеки машинного обучения: Scikit-learn и Tensorflow  —  День 26
50-дневный план обучения для начинающих специалистов по данным | Круио Добро пожаловать на 26-й день вашего обучения науке о данных! На наших предыдущих сессиях мы рассмотрели широкий круг тем, от статистики и Python до очистки данных, визуализации, метрик оценки модели, настройки гиперпараметров и многого другого. Сегодня мы входим в мир библиотек машинного обучения. Эти библиотеки (Scikit-learn и TensorFlow) предоставляют мощные инструменты и платформы, которые упрощают..

Scikit Learn 1.0: новые функции в библиотеке машинного обучения Python
Scikit-learn — это самая популярная бесплатная библиотека машинного обучения Python с открытым исходным кодом для специалистов по обработке и анализу данных и специалистов по машинному обучению. Библиотека scikit-learn содержит множество эффективных инструментов для машинного обучения и статистического моделирования, включая классификацию, регрессию, кластеризацию и уменьшение размерности. В этой статье я рад поделиться с вами 5 лучшими новыми функциями, представленными в новой версии..

Вопросы по теме 'scikit-learn'

Каковы разные варианты использования joblib и pickle?
Предыстория: я только начинаю работать с scikit-learn и читаю внизу страницы информацию о joblib вместо pickle . может быть интереснее использовать замену pickle в joblib (joblib.dump & joblib.load), которая более эффективна для больших...

Вход в precision_recall_curve - прогнозировать или прогнозировать выход?
Я использую Gaussian Naive Bayes для обучения модели из фрейма данных Pandas, но получаю сообщение об ошибке при использовании precision_recall_curve. В документации говорится, что precision_recall_curve принимает прогнозируемые вероятности в...

Получение атрибутов модели из конвейера
Обычно я получаю PCA загрузку примерно так: pca = PCA(n_components=2) X_t = pca.fit(X).transform(X) loadings = pca.components_ Если я запустил PCA с помощью конвейера scikit-learn: from sklearn.pipeline import Pipeline pipeline =...

Быстрая неотрицательная матричная факторизация на большой разреженной матрице
Использование Scikit-learn (v 0.15.2) для неотрицательной матричной факторизации на большой разреженной матрице (менее 1% значений > 0). Я хочу находить факторы, минимизируя ошибки только для ненулевых значений матрицы (т. е. не вычисляя ошибки для...

Установить/импортировать модуль sklearn на Spyder 2.1? (Убунту)
Я пытаюсь импортировать модуль sklearn в Spyder 2.1 (for Python 2.7) . Я установил его на Anaconda через терминал, но когда я пытаюсь импортировать его из консоли в Spyder , я получаю эту ошибку: ImportError: нет модуля с именем...

Перекрестная проверка порядковой логистической регрессии в R (с использованием rpy2)
Я пытаюсь создать прогностическую модель в Python, сравнивая несколько разных моделей регрессии с помощью перекрестной проверки. Чтобы соответствовать порядковой логистической модели ( MASS.polr ), мне пришлось взаимодействовать с R через rpy2...

Обучите MFCC с помощью алгоритма машинного обучения
У меня есть наборы данных MFCC, которые, как я знаю, хороши. Я знаю, как поместить вектор-строку в алгоритм машинного обучения. У меня вопрос, как это сделать с MFCC, так как это матрица? Например, как бы я поместил это в алгоритм машинного...

Использование SVM для классификации многомерных наборов данных временных рядов
Я хотел бы использовать оценщик svm.SVC() scikit-learn для выполнения задач классификации в многомерных временных рядах, то есть во временных рядах, где точки в ряду принимают значения в R ^ d, где d > 1. Проблема с этим заключается в том, что...

Как интерпретировать выходные данные разреженной матрицы sklearn?
Я пытаюсь создать матрицу совпадения биграммных слов, указывающую, сколько раз одно слово следует за другим в корпусе. В качестве теста я написал следующее (которое я собрал из других вопросов SE): from sklearn.feature_extraction.text import...

SVM дал плохой результат в моих данных. Как исправить?
У меня есть набор данных, который содержит 510 выборки для обучения и 127 выборки для тестирования, каждая выборка имеет 7680 функции. Я хочу разработать модель для прогнозирования метки роста (см) на основе данных обучения. В настоящее время...

Пользовательский миксин-трансформер с FeatureUnion в scikit-learn
Я пишу собственные преобразователи в scikit-learn, чтобы выполнять определенные операции с массивом. Для этого я использую наследование класса TransformerMixin. Работает нормально, когда я имею дело только с одним трансформатором. Однако, когда я...

ValueError: несоответствие размеров при попытке сделать прогноз на тестовом наборе
Я новичок в машинном обучении и изо всех сил пытаюсь заставить классификатор сделать прогноз, используя набор тестовых данных. Я думал, что несоответствие размера ошибки связано с тем, что векторизатор был оснащен тестовым набором, но я исправил...

в чем разница между tfidf vectorizer и tfidf transformer
Я знаю, что формула для tfidf vectorizer такова: Count of word/Total count * log(Number of documents / no.of documents where word is present) Я видел, что в scikit learn есть трансформатор tfidf, и я просто хотел различить их. Я не мог...

Sklearn PCA, как восстановить среднее значение в более низком измерении?
Этот вопрос касается того, как децентрировать и «восстановить» данные в более низком измерении после выполнения PCA. Я делаю простой анализ основных компонентов с sklearn. Насколько я понимаю, реализация должна позаботиться о (1) центрировании...

Почему (rf)clf feature_importance придает значение функции, все значения которой одинаковы?
Я сравниваю мультиклассификацию со случайными лесами и CART в scikit-learn. Два моих признака (признак 4 и признак 6) не имеют отношения к классификации, поскольку все значения одинаковы. Но вывод feature_importances RandomForestClassifier...

Как оценить границы решений для KNeighborsRegressor
Я встречал коды и статьи об использовании KNeighborsClassifier для оценки границ решений. https://scikit-learn.org/stable/auto_examples/neighbors/plot_regression.html...

Как разделить данные на первые 808698 строк поезда, а остальные в качестве теста?
У меня есть два набора данных: тестовый и обучающий. Я собрал их в один csv. Я хочу разделить свои данные для обучения и тестирования. Но это не должно быть случайным. Мне нужно разделить первые 808699 строк поезда, а остальные в качестве теста?...

Уверенность в прогнозах DecisionTreeClassifier
Я пытаюсь понять, как работают алгоритмы классификации для создания своего рода универсального конвейера, поэтому я только начал с модели LinearSVC. Вообще говоря, я делаю: model = LinearSVC(loss='squared_hinge', penalty='l2', dual=False,...

Почему один столбец заставляет мою SVM работать час?
Я использую sklearn.SVC в DataFrame pandas для прогнозирования категориальных данных. Вектор функций с именем «feature_train» представляет собой один столбец времени (numpy.int64) и несколько тысяч столбцов tfidf (которые очень редко содержат...
13.01.2024

Существуют ли библиотеки для небинарных деревьев решений в python?
Поэтому я ищу какую-то библиотеку, в которой есть реализация алгоритма небинарного дерева решений. Например, я хочу классифицировать зоопарк ( https://www.kaggle.com/uciml/zoo-animal-classification/data ), используя алгоритм дерева решений. До сих...

Новые материалы

Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности
Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..