Извлечение значимой информации из символьных столбцов с использованием методов работы со строками SQL

Введение

После прочтения этой статьи у нас должно быть больше уверенности в извлечении данных, содержащихся в символьных переменных. Символьная переменная или строка могут быть представлены текстовыми значениями, такими как человек; имя, должность или адрес. Многие из используемых моделей машинного обучения требуют, чтобы функции были в числовом формате для извлечения смысла. С помощью методов обработки строк данные могут быть очищены и преобразованы в необходимый формат.

Код SQL, показанный в этой статье, был создан с использованием экземпляра Microsoft SQL Server Management Studio 18. Каждый из использованных примеров направлен на то, чтобы выделить основные концепции различных доступных строковых функций SQL.

Входные данные

Для этой части анализа образец набора данных IBM HR Analytics был взят из Kaggle¹. В этом наборе данных доступен ряд символьных переменных.



ЧАРИНДЕКС

Метод индекса символов можно использовать для проверки наличия строкового значения в столбце символов.

В коде SQL, показанном выше, мы ищем значение «продажи» в первом применении метода. Поиск строки показывает, что значение не чувствительно к регистру, так как фактическое значение в искомом столбце показывает формат верблюжьего регистра. Поскольку предложение фильтра применяется к набору данных, в результатах запроса будут отображаться только значения, возвращающие совпадение с выражением фильтра.

Как видно из приведенного выше вывода, два искомых строковых значения вернут позицию индекса, которая представляет первый символ, соответствующий общему искомому строковому значению. Если строковое значение отсутствует, будет возвращено нулевое значение. Во второй строке мы видим, что значение столбца «Представитель» не будет соответствовать искомому значению «Исполнитель», поэтому возвращается ноль.

ПАТИНДЕКС

При просмотре шаблона, содержащегося в столбце, подходит метод индекса шаблона.

Используя символ процента, мы предоставляем методу подстановочный знак. Именно этот подстановочный знак допускает наличие любого количества других значений между искомым шаблоном.

Результаты показывают, что два значения присутствовали до того, как была найдена первая буква «b», а затем шесть значений присутствовали перед второй буквой «y».

В этом обзоре столбца роли работы мы ищем список значений, которые содержатся в любом месте столбца строки.

Как видно из вывода SQL, в этом поиске была идентифицирована только буква «x». Однако если какие-либо или все буквы из списка присутствуют в строке, эти результаты будут показаны.

ЛЕВО ПРАВО

Эти два метода можно использовать для возврата части строки, начинающейся с начала или с конца строки.

При выборе левого метода возвращаются первые три значения символов с начала строки.

В то время как при правильном методе были возвращены последние три символьных значения. Каждый из этих методов может помочь вернуть требуемые результаты, если начало или конец строки совпадает с началом анализа. Однако, если требуется другая начальная позиция, гораздо более практичным будет использование метода подстрок.

ПОДСТРОКА

Возможность идентифицировать начальную и длинную позиции строки, которая требуется, является ядром метода подстроки. Наличие этих двух позиционных параметров обеспечивает более высокий уровень гибкости при просмотре строковых переменных.

С объявленной переменной предложения есть ряд элементов, которые можно извлечь. Использование метода подстроки со значениями начала и длины из индекса позволяет пользователю найти два элемента фруктов. Поскольку индекс подстроки начинается с единицы, а параметр положения длины является включающим, «яблоки» могут быть возвращены со значениями параметра положения, равными единице и шести.

Второй фрукт был идентифицирован путем расширения значения начальной позиции до соответствующей позиции из индекса. В этом примере позиция длины относится к требуемой длине фрукта. Если позиционный параметр длины не был включен, то все строковые значения после начальной позиции будут возвращены в результате запроса.

ЗАМЕНЯТЬ

После определения интересующих нас строковых значений могут возникнуть ситуации, когда это строковое значение необходимо скорректировать. Для этой задачи доступен метод replace.

В колонке отдел найден амперсанд, но его требуется заменить на «и» вместо символа «&». Параметры в методе — это старый элемент для второго параметра и новый элемент для третьего параметра.

Как показывают результаты, новое название отдела было создано, как и ожидалось. Это небольшой пример того, чего можно добиться при идентификации текста, который можно преобразовать в другой формат.

Заключение

Много дополнительной информации можно получить из данных, содержащихся в текстовых столбцах или функциях. В этой статье было показано несколько различных методов, помогающих в этом процессе извлечения. Каждый метод подчеркивал, как понимание индекса строки символов может предоставить возможности для создания новых функций.

В следующей статье мы продолжим изучение различных строковых методов SQL, которые можно использовать.

Большое спасибо за внимание

[1]: набор данных Kaggle. Набор данных об истощении IBM HR Analytics из https://www.kaggle.com/pavansubhasht/ibm-hr-analytics-attrition-dataset, с лицензионным соглашением https://opendatacommons.org/. лицензии/dbcl/1-0/»