반응형

유사 항목 그룹화

 

유사 항목 조회 변환은 입력 데이터를 참조 테이블과 비교하여 유사하다고 판단되는 항목을 출력하는 변환인 반면, 유사 항목 그룹화 변환은 참조 테이블 없이 입력 데이터를 분석하여 유사성을 가지는 항목으로 그룹화 시키는 작업입니다. 그룹화라는 이름으로 인해 집계 변환의 그룹핑(GROUP BY) 작업과 같은 방식으로 생각할 수 있지만, 입력 데이터를 GROUP BY하는 연산은 아닙니다. 여러 입력 데이터를 서로 유사성이 있는 형태로 분류(Classification)하는 형태의 작업입니다.

 

 

다음과 같은 입력 데이터를 고려해 봅시다.

 

FIELDS OPERATION MGR

FLDS OPS MGR

FIELDS ORS MGR

FIELDS OPERATIONS MANAG

 

유사 항목 조회 변환의 경우, 참조 테이블에 기준이 되는 항목 값인 FIELDS OPERATION MGR 라는 값이 저장되어 있다고 할 때, 각 입력 데이터는 이 기준 값에 대한 유사성을 판단하여 유사성 및 신뢰도 점수와 함께 데이터를 출력하게 됩니다. 하지만, 유사 항목 그룹화 변환 4개의 입력 데이터를 이용하여 서로 유사성을 분석하여 그룹화 작업을 수행합니다. 예를 들어, 유사성 임계값을 0.70으로 설정한 경우 위의 데이터는 3개의 그룹으로 그룹화 됩니다. 아래 표와 같이 변환 내에서 데이터를 그룹핑 연산을 할 때의 유사성 임계값에 따라 분류되는 그룹의 수는 달라집니다.

 

입력 데이터

유사성 임계값 = 0.70

유사성 임계값 = 0.50

유사성 임계값 = 0.25

FIELDS OPERATION MGR

FIELDS OPERATION MGR

FLDS OPS MGR

FIELDS OPERATION MGR

FLDS OPS MGR

FLDS OPS MGR

FLDS OPS MGR

FIELDS OPERATION MGR

FIELDS ORS MGR

FLDS OPS MGR

FIELDS OPERATIONS MANAG

FIELDS OPERATION MGR

FIELDS OPERATIONS MANAG

FIELDS OPERATIONS MANAG

FIELDS OPERATIONS MANAG

FIELDS OPERATION MGR

그룹 수

3

2

1

 

유사 항목 그룹화를 수행할 수 있는 데이터 형태는 DT_WSTR만 가능합니다.

 

[참고] 온라인 도움말에서는 유사 항목 그룹화 변환 DT_STR 형태도 지원한다고 되어 있습니다.

ms-help://MS.SQLCC.v9/MS.SQLSVR.v9.ko/extran9/html/e43f17bd-9d13-4a8f-9f29-cce44cac1025.htm

하지만, 유사 항목 조회 변환에서만 DT_STR DT_WSTR이 가능하며, 유사 항목 그룹화 변환에서는 DT_STR형을 사용하면 다음과 같은 에러가 출력됩니다. 데이터 변환 작업 등을 이용하여 입력 데이터를 DT_WSTR로 변경해야 정상적으로 수행할 수 있습니다.

 

 

 

 

 

 

연결 관리자 탭

 

 

유사 항목 그룹화 변환 편집기의 연결 관리자 탭에서는 유사 항목 그룹화 작업을 수행할 때 필요한 임시 저장 테이블의 연결을 지정합니다.

이 때 생성되는 임시 테이블은 입력 데이터를 토큰화 하여 저장하는 인덱스 테이블 입니다. 변환 과정에서 자동으로 임시 테이블을 생성하고 생성된 테이블에 쿼리를 해서 그룹화 작업을 수행합니다. 이 테이블의 크기는 커질 수 있기 때문에 실제 개발 환경에서는 운영 DB가 아닌 임시 DB로 지정하시기 바랍니다.

 

 

 

열 탭

 

 

열 탭에서는 유사 항목 그룹화를 수행할 열을 지정하고, 그룹화 작업의 세부 설정을 지정합니다.

 

Ÿ           입력 열 입력 데이터에서 입력 열을 선택합니다.

Ÿ           출력 별칭 입력 열을 다른 이름으로 출력하고자 할 경우, 이 값을 변경하면 됩니다. 기본적으로 입력 열의 이름과 동일하게 설정됩니다.

Ÿ           그룹 출력 별칭 입력 데이터에 대해 그룹화 작업을 수행한 후, 가장 유사하다고 판단되는 그룹의 열 데이터를 출력할 때 사용할 열의 이름을 설정합니다. 기본적으로 출력 별칭 뒤에 _clean이라는 접미사가 붙는 형태입니다.

Ÿ           일치 유형 – Fuzzy로 설정하면 유사 비교를 수행하며, Exact로 설정하면 완전히 동일한 경우의 비교만 수행합니다.

Ÿ           최소 유사성 유사하다고 판단할 최소의 유사성 임계치를 설정합니다. 이 값은 현재의 열에 대한 비교 임계치입니다.

Ÿ           유사성 출력 별칭 입력 데이터와 그룹핑 한 데이터 간의 유사성 수치를 출력할 열의 이름을 설정합니다. 기본적으로 출력 별칭 앞에 _Similarity_ 접두사가 붙는 형태입니다.

Ÿ           숫자 입력 데이터에서의 숫자에 대한 처리 방식을 지정합니다.

ú           Neither – 입력 데이터의 앞부분 및 뒷부분의 숫자 모두 분류 작업에 특별한 의미가 없습니다.

ú           Leading – 입력 데이터의 앞부분에 나타나는 숫자만 의미가 있습니다.

ú           Trailing – 입력 데이터의 뒷부분에 나타나는 숫자만 의미가 있습니다.

ú           LeadingAndTrailing – 입력 데이터의 앞부분 및 뒷부분의 숫자 모두 의미가 있습니다.


여기서 의미가 있다는 것은 다음과 같습니다. 예를 들어 다음과 같은 형태의 데이터를 고려해 봅시다.
       “1Seoul”
       “2Seoul”
       “3Seoul”
이러한 데이터의 경우, 숫자의 속성 값을 Neither 또는 Trailing으로 지정한 경우, 앞부분의 숫자는 특별한 의미를 가지지 않기 때문에 유사성이 높은 동일한 그룹으로 분류됩니다. 하지만, Leading 또는 LeadingAndTrailing으로 지정한 경우, 뒷부분의 문자가 동일하더라도 앞부분의 숫자가 데이터를 구분하는 중요한 의미를 가진다는 것을 나타내기 때문에 동일한 그룹으로 분류하지 않습니다.

Ÿ           비교 플래그 문자열 데이터를 비교할 때의 비교 옵션을 지정합니다.

 

 

 

 

고급 탭

 

 

Ÿ           입력 키 열 이름 입력 데이터 각 행의 고유한 값을 나타내는 열의 이름을 지정합니다. 일반적으로 이 값은 1,2,3,… 과 같이 순차적인 값으로 설정됩니다.

Ÿ           출력 키 열 이름 입력 데이터가 그룹화 된 행의 고유 값을 나타냅니다.

Ÿ           유사성 점수 열 이름 입력 데이터와 이 데이터가 그룹화 되는 기준 데이터 간의 유사성 점수를 나타냅니다. 이 값은 0에서 1 사이이며, 1에 가까울수록 더 유사하다고 판단할 수 있습니다. 이 값은 열 탭에서의 각 열에 대한 유사성에 대한 평균값으로 변환 작업 전체에 대한 평균 유사성 점수를 나타내는 것입니다.

Ÿ           유사성 임계값 그룹화를 수행할 유사성 점수의 임계값을 설정합니다. 임계값이 높으면 그룹화 시키는 조건이 더 엄격해지므로 더 많은 그룹으로 분류가 되며, 반대로 임계값이 낮으면 더 적은 수의 그룹으로 분류됩니다.

Ÿ           토큰 구분 기호 입력 데이터를 그룹화 하는 최소 단위인 토큰으로 구분할 때 사용되는 토큰의 구분 기호를 설정합니다.

 

 

 

출력 형태 분석

 

 

위의 그림에서 붉은 색으로 테두리 한 부분을 살펴보겠습니다.

_key_in 열은 입력 데이터의 각 행에 대한 고유 키 값이며, 자동으로 생성됩니다.

_key_in의 값은 2이지만, _key_out의 값은 1입니다. 이는 두 번째의 입력 데이터가 1번 키 값을 가지는 데이터로 그룹핑 되었다라는 것을 말합니다.

_score는 행 전체에 대한 유사성 점수를 나타내며, 현재 유사 비교를 수행하는 열이 InputData라는 열 하나만 존재하기 때문에 _Similarity_InputData의 수치와 동일하게 0.5802794의 값을 나타내고 있습니다.

InputData의 값은 입력된 데이터를 나타내며, InputData_clean은 그룹화 되어 분류되는 값을 나타냅니다. , “EXEC VICE PRES”는 전체 데이터에 대해 유사 항목 그룹화 변환을 수행할 경우, “EXECUTIVE VICE PRESIDENT”이라는 값으로 처리됩니다.

_Similarity_InputData InputData열에 대한 유사성 점수를 나타냅니다.

 

 

 

유사성 임계값에 따른 그룹핑 결과 분석 표

다음은 동일한 데이터에 대해 고급 탭유사성 임계값을 달리했을 때의 출력 결과를 나타내는 표입니다.

 

입력 데이터 원본

유사성 임계값 : 0.75

유사성 임계값 : 0.50

유사성 임계값 : 0.25

EXECUTIVE VICE PRESIDENT

EXECUTIVE VICE PRESIDENT

EXECUTIVE VICE PRESIDENT

EXECUTIVE VICE PRESIDENT

EXEC VICE PRES

EXEC VICE PRES

EXECUTIVE VICE PRESIDENT

EXECUTIVE VICE PRESIDENT

EXECUTIVE VP

EXECUTIVE VP

EXEC VP

EXECUTIVE VICE PRESIDENT

EXEC VP

EXEC VP

EXEC VP

EXEC VP

EXECUTIVE VICE PRASIDENT

EXECUTIVE VICE PRESIDENT

EXECUTIVE VICE PRESIDENT

EXECUTIVE VICE PRESIDENT

FIELDS OPERATION MGR

FIELDS OPERATIONS MANAGER

FIELDS OPS MGR

FIELDS OPERATION MGR

FLDS OPS MGR

FLDS OPS MGR

FIELDS OPS MGR

FIELDS OPERATION MGR

FIELDS OPS MGR

FLDS OPS MGR

FIELDS OPS MGR

FIELDS OPERATION MGR

FIELDS OPERATIONS MANAGER

FIELDS OPERATIONS MANAGER

FIELDS OPERATIONS MANAGER

FIELDS OPERATION MGR

BUSINESS OFFICE MANAGER

BUSINESS OFFICE MANAGER

BUS OFFICE MANAGER

BUS OFFICE MANAGER

BUS OFFICE MANAGER

BUS OFFICE MNGR

BUS OFFICE MANAGER

BUS OFFICE MANAGER

BUS OFF MANAGER

BUS OFF MANAGER

BUS OFFICE MANAGER

BUS OFFICE MANAGER

BUS OFFICE MNGR

BUS OFFICE MNGR

BUS OFFICE MANAGER

BUS OFFICE MANAGER

BUS OFFICE MGR

BUS OFFICE MNGR

BUS OFFICE MANAGER

BUS OFFICE MANAGER

X-RAY TECHNOLOGIST

X-RAY TECHNOLOGIST

X-RAY TECHNOLOGIST

X-RAY TECHNOLOGIST

XRAY TECHNOLOGIST

X-RAY TECHNOLOGIST

X-RAY TECHNOLOGIST

X-RAY TECHNOLOGIST

XRAY TECH

XRAY TECH

X-RAY TECHNOLOGIST

X-RAY TECHNOLOGIST

X-RAY TECH

X-RAY TECHNOLOGIST

X-RAY TECHNOLOGIST

X-RAY TECHNOLOGIST

총 데이터 수 : 18

그룹 수 : 11

그룹 수 : 6

그룹 수 : 5

 

 

 

반응형

+ Recent posts