Строки в SQL часть 1

Извлечение значимой информации из символьных столбцов с использованием методов работы со строками SQL

Введение

После прочтения этой статьи у нас должно быть больше уверенности в извлечении данных, содержащихся в символьных переменных. Символьная переменная или строка могут быть представлены текстовыми значениями, такими как человек; имя, должность или адрес. Многие из используемых моделей машинного обучения требуют, чтобы функции были в числовом формате для извлечения смысла. С помощью методов обработки строк данные могут быть очищены и преобразованы в необходимый формат.

Код SQL, показанный в этой статье, был создан с использованием экземпляра Microsoft SQL Server Management Studio 18. Каждый из использованных примеров направлен на то, чтобы выделить основные концепции различных доступных строковых функций SQL.

Входные данные

Для этой части анализа образец набора данных IBM HR Analytics был взят из Kaggle¹. В этом наборе данных доступен ряд символьных переменных.

Увольнение и производительность сотрудников IBM HR Analytics
Прогнозируйте увольнение ценных сотрудниковwww.kaggle.com

ЧАРИНДЕКС

Метод индекса символов можно использовать для проверки наличия строкового значения в столбце символов.

В коде SQL, показанном выше, мы ищем значение «продажи» в первом применении метода. Поиск строки показывает, что значение не чувствительно к регистру, так как фактическое значение в искомом столбце показывает формат верблюжьего регистра. Поскольку предложение фильтра применяется к набору данных, в результатах запроса будут отображаться только значения, возвращающие совпадение с выражением фильтра.

Как видно из приведенного выше вывода, два искомых строковых значения вернут позицию индекса, которая представляет первый символ, соответствующий общему искомому строковому значению. Если строковое значение отсутствует, будет возвращено нулевое значение. Во второй строке мы видим, что значение столбца «Представитель» не будет соответствовать искомому значению «Исполнитель», поэтому возвращается ноль.

ПАТИНДЕКС

При просмотре шаблона, содержащегося в столбце, подходит метод индекса шаблона.

Используя символ процента, мы предоставляем методу подстановочный знак. Именно этот подстановочный знак допускает наличие любого количества других значений между искомым шаблоном.

Результаты показывают, что два значения присутствовали до того, как была найдена первая буква «b», а затем шесть значений присутствовали перед второй буквой «y».

В этом обзоре столбца роли работы мы ищем список значений, которые содержатся в любом месте столбца строки.

Как видно из вывода SQL, в этом поиске была идентифицирована только буква «x». Однако если какие-либо или все буквы из списка присутствуют в строке, эти результаты будут показаны.

ЛЕВО ПРАВО

Эти два метода можно использовать для возврата части строки, начинающейся с начала или с конца строки.

При выборе левого метода возвращаются первые три значения символов с начала строки.

В то время как при правильном методе были возвращены последние три символьных значения. Каждый из этих методов может помочь вернуть требуемые результаты, если начало или конец строки совпадает с началом анализа. Однако, если требуется другая начальная позиция, гораздо более практичным будет использование метода подстрок.

ПОДСТРОКА

Возможность идентифицировать начальную и длинную позиции строки, которая требуется, является ядром метода подстроки. Наличие этих двух позиционных параметров обеспечивает более высокий уровень гибкости при просмотре строковых переменных.

С объявленной переменной предложения есть ряд элементов, которые можно извлечь. Использование метода подстроки со значениями начала и длины из индекса позволяет пользователю найти два элемента фруктов. Поскольку индекс подстроки начинается с единицы, а параметр положения длины является включающим, «яблоки» могут быть возвращены со значениями параметра положения, равными единице и шести.

Второй фрукт был идентифицирован путем расширения значения начальной позиции до соответствующей позиции из индекса. В этом примере позиция длины относится к требуемой длине фрукта. Если позиционный параметр длины не был включен, то все строковые значения после начальной позиции будут возвращены в результате запроса.

ЗАМЕНЯТЬ

После определения интересующих нас строковых значений могут возникнуть ситуации, когда это строковое значение необходимо скорректировать. Для этой задачи доступен метод replace.

В колонке отдел найден амперсанд, но его требуется заменить на «и» вместо символа «&». Параметры в методе — это старый элемент для второго параметра и новый элемент для третьего параметра.

Как показывают результаты, новое название отдела было создано, как и ожидалось. Это небольшой пример того, чего можно добиться при идентификации текста, который можно преобразовать в другой формат.

Заключение

Много дополнительной информации можно получить из данных, содержащихся в текстовых столбцах или функциях. В этой статье было показано несколько различных методов, помогающих в этом процессе извлечения. Каждый метод подчеркивал, как понимание индекса строки символов может предоставить возможности для создания новых функций.

В следующей статье мы продолжим изучение различных строковых методов SQL, которые можно использовать.

Большое спасибо за внимание

[1]: набор данных Kaggle. Набор данных об истощении IBM HR Analytics из https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset, с лицензионным соглашением https://opendatacommons.org/. лицензии/dbcl/1-0/»

материалы по теме:

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP