Nano Hash - криптовалюты, майнинг, программирование

SSIS удаляет ненужные символы

Как удалить ненужные символы в SSIS между текстом

то есть у нас есть такие данные

2134;#Adam Connor (aconnor),21987;#Tatanka Wabe (Twabe);# 

когда он получен из sharepoint. Я пробовал подстроки, замену и т. д., но не смог удалить числа между именами.

Я хочу, чтобы вывод был как

Adam Connor, Tatanka Kale

  • Прежде чем задать свой первый вопрос, рекомендуется прочитать страницу обзора, чтобы узнать больше о том, как задавать правильные вопросы, принимать ответы и другие правила веб-сайта. Также, чтобы получить значок informed. 02.02.2018

Ответы:


1

Вы можете использовать регулярные выражения

Примечание. Код на VB.NET

Вам нужно извлечь строки между # и (

Dim mc As MatchCollection = Regex.Matches(strContent, "(?<=\#)(.*?)(?=\()", RegexOptions.Singleline)

Затем вам нужно присоединиться к ним через запятую

String.Join(",", mc.Cast(Of Match)().Select(Function(m) m.Value))

Версия SSIS — использование компонента сценария

Для этого можно использовать компонент скрипта с помощью регулярного выражения:

Предположим, что Column0 — это входной столбец, а outColumn — выходной столбец

Imports System  
Imports System.Data  
Imports System.Math  
Imports Microsoft.SqlServer.Dts.Pipeline.Wrapper  
Imports Microsoft.SqlServer.Dts.Runtime.Wrapper  
Imports System.Text.RegularExpressions

<Microsoft.SqlServer.Dts.Pipeline.SSISScriptComponentEntryPointAttribute> _  
<CLSCompliant(False)> _  
Public Class ScriptMain  
    Inherits UserComponent  

Public Overrides Sub Input0_ProcessInputRow(ByVal Row As Input0Buffer)  

        if Not Row.Column0_IsNull AndAlso _
           Not String.IsNullOrEmpty(Row.Column0.Trim) Then

            Dim strContent As String = Row.Column0

            Dim mc As MatchCollection = Regex.Matches(strContent, "(?<=\#)(.*?)(?=\()", RegexOptions.Singleline)

            Row.OutColumn = String.Join(",", mc.Cast(Of Match)().Select(Function(m) m.Value))

        Else 

            Row.OutColumn_IsNull = True

        End If

    End Sub  

End Class  

использованная литература

01.02.2018

2

Если образцы данных представляют шаблон, и вы открыты для функции с табличным значением.

Некоторое время назад, устав от извлечения строк (слева, справа, подстроки, charindex, patindex и т. д.), я модифицировал функцию синтаксического анализа, чтобы принимать два непохожих параметра. В этом случае # и (

Пример

Declare @YourTable table (ID int,SomeCol varchar(max))
Insert Into @YourTable values
(1,'2134;#Adam Connor (aconnor),21987;#Tatanka Wabe (Twabe);#')

Select A.ID
      ,B.*
 From  @YourTable A
 Cross Apply (
                Select NewVal = Stuff((Select ', ' +ltrim(rtrim(RetVal)) 
                                         From [dbo].[tvf-Str-Extract](A.SomeCol,'#','(') 
                                         For XML Path ('')
                                      ),1,2,'')
             ) B

Возврат

ID  NewVal
1   Adam Connor, Tatanka Wabe

Функция, если интересно

CREATE FUNCTION [dbo].[tvf-Str-Extract] (@String varchar(max),@Delimiter1 varchar(100),@Delimiter2 varchar(100))
Returns Table 
As
Return (  

with   cte1(N)   As (Select 1 From (Values(1),(1),(1),(1),(1),(1),(1),(1),(1),(1)) N(N)),
       cte2(N)   As (Select Top (IsNull(DataLength(@String),0)) Row_Number() over (Order By (Select NULL)) From (Select N=1 From cte1 N1,cte1 N2,cte1 N3,cte1 N4,cte1 N5,cte1 N6) A ),
       cte3(N)   As (Select 1 Union All Select t.N+DataLength(@Delimiter1) From cte2 t Where Substring(@String,t.N,DataLength(@Delimiter1)) = @Delimiter1),
       cte4(N,L) As (Select S.N,IsNull(NullIf(CharIndex(@Delimiter1,@String,s.N),0)-S.N,8000) From cte3 S)

Select RetSeq = Row_Number() over (Order By N)
      ,RetPos = N
      ,RetVal = left(RetVal,charindex(@Delimiter2,RetVal)-1) 
 From  (
        Select *,RetVal = Substring(@String, N, L) 
         From  cte4
       ) A
 Where charindex(@Delimiter2,RetVal)>1

)
/*
Max Length of String 1MM characters

Declare @String varchar(max) = 'Dear [[FirstName]] [[LastName]], ...'
Select * From [dbo].[tvf-Str-Extract] (@String,'[[',']]')
*/

Примечание.

Если бы вы просто бежали

Declare @YourTable table (ID int,SomeCol varchar(max))
Insert Into @YourTable values
(1,'2134;#Adam Connor (aconnor),21987;#Tatanka Wabe (Twabe);#')

Select A.ID
      ,B.*
 From  @YourTable A
 Cross Apply [dbo].[tvf-Str-Extract](A.SomeCol,'#','(')  B

Вы бы получили

ID  RetSeq  RetPos  RetVal
1   1       7       Adam Connor 
1   2       36      Tatanka Wabe 
01.02.2018
Новые материалы

Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности
Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..