용어 추출 변환
용어 추출 변환은 입력 데이터에서 명사 또는 명사구의 형태로 용어를 추출하는 작업입니다.
텍스트 입력 데이터에 대해, 용어 형태 및 빈도 임계값, 최대 용어 길이 등의 옵션을 설정하여 용어를 추출합니다. 이러한 변환 작업은 텍스트 형태의 기사나 이메일 등의 데이터로부터 주요 이슈 사항을 추출하여 분류, 분석하는 작업에 이용될 수 있습니다
※ 이 변환 작업은 한글 데이터는 안되며, 영어 텍스트 데이터만 가능합니다. 또한, 입력 데이터는 유니코드 문자열(DT_WSTR) 또는 유니코드 텍스트(DT_NTEXT)형만 가능합니다. |
용어 추출 변환은 다음과 같은 특징이 있습니다.
1. 관사와 대명사는 추출하지 않습니다. – 예를 들어 the bicycle, my bicycle 의 데이터는 모두 bicycle로 추출됩니다.
2. 기본적으로 대/소문자를 구분하지 않습니다– 고급 옵션의 대/소문자 구분 옵션을 설정하지 않는 경우, bicycle 이나 Bicycle, BICYCLE 등을 모두 bicycle로 분류합니다.
3. 단/복수를 동일하게 추출합니다. - bicycles 와 같이 복수 형태의 단어도 단수로 처리됩니다. 예를 들어, men을 man으로, mice를 mouse, bicycles를 bicycle로 분류합니다.
4. 변환은 사전에 캐시된 모드에서 수행됩니다. 제외 탭에서 제외할 용어 데이터를 설정한 경우에는 이 데이터 집합 또한 전용 메모리 공간에 저장됩니다.
5. 변환은 내부의 자체 알고리즘과 통계 모델을 사용합니다. 따라서 사용자가 원하는 형태의 결과가 나오지 않을 수 있기 때문에, 고급 탭에 있는 다양한 옵션을 이용하여 출력 형태를 설정해야 합니다.
용어 추출 변환 편집기는 용어 추출, 제외, 고급 탭으로 구성되어 있습니다.
용어 추출
입력 데이터에서 용어를 추출할 열을 선택합니다. 출력 열에서는 추출한 용어를 나타낼 열 이름과 빈도수를 나타내는 점수 열의 이름을 설정합니다.
제외
입력 데이터에서 추출하는 용어 중, 제외할 용어가 있을 때 이 탭에서 설정합니다. 제외할 용어를 별도의 테이블에 저장시킨 후 이를 참조하도록 설정할 수 있습니다.
고급
Ÿ 용어 유형
ú 명사 – 단일 명사만을 추출합니다. bicycle, landscape 등이 명사 입니다.
ú 명사구 – 명사구 형태의 데이터만 추출합니다. 명사구는 하나의 명사와 명사 또는 형용사를 포함하는 두 개 이상의 단어입니다. 예를 들어, beautible bicycle 이 명사구가 됩니다.
ú 명사 및 명사구 – 명사와 명사구 용어 모두를 추출합니다.
Ÿ 점수 유형
ú 빈도 – 점수 유형을 빈도로 설정합니다.
ú TFIDF – 점수 유형을 TF(용어 빈도)와 IDF(역 문서 빈도)의 곱으로 설정합니다. 계산 식은 다음과 같습니다.
용어 T의 TFIDF = (용어 T의 빈도) * log((입력 데이터의 행 수) / (용어 T를 포함하는 행 수))
Ÿ 매개 변수
ú 빈도 임계값 – 단어 또는 구로 추출되기 위한 최소의 임계치 입니다. 예를 들어 이 값을 5로 설정한 경우, 해당 용어가 5회 이상 나와야 출력에 포함될 수 있습니다.
ú 최대 용어 길이 – 추출되는 용어의 최대 길이를 설정합니다. 이 값은 명사구에만 영향을 줍니다.
Ÿ 옵션
ú 대/소문자 구분 용어 추출 사용 – 용어 추출 시 대/소문자 구분 여부를 설정합니다. 이 때, 단어에 첫 번째 글자가 대문자인 것은 별도로 구분되지 않습니다. 즉, Bicycle은 bicycle로 분류가 되며, Bicycle 또는 BICYCLE 등과 같은 경우는 별도의 용어로 분류됩니다.
다음과 같은 출력 데이터에 대해 고급 옵션의 설정에 따른 결과를 살펴봅시다.
1. 용어 유형 : 명사, 점수 유형 : 빈도, 빈도 임계값 : 1, 옵션 : 대/소문자 구분 없음
2. 용어 유형 : 명사구, 점수 유형 : 빈도, 빈도 임계값 : 1, 옵션 : 대/소문자 구분 없음
3. 용어 유형 : 명사, 점수 유형 : 빈도, 빈도 임계값 : 1, 옵션 : 대/소문자 구분
용어 조회 변환
용어 조회 변환은 입력 데이터에서 미리 정의된 참조 데이터의 용어가 얼마나 나타나는지를 조회하는 변환입니다. 이 변환 역시 영문 데이터에 대해서만 정상적으로 수행되며, 입력되는 데이터는 유니코드
참조 데이터로 사용될 수 있는 형태는 OLE DB 연결만 가능하며, SQL Server 2000 또는 SQL Server 2005, Access 데이터베이스의 테이블만 가능합니다.
미리 정의된 용어 리스트를 별도의 테이블에 저장한 후, 변환 작업 시 메모리에 전부 캐싱되어 수행됩니다.
용어 조회 변환 출력 결과는 입력 데이터에 용어 열과 빈도가 추가됩니다. 빈도 계산은 입력 데이터 행 단위로 수행됩니다.

용어 추출 변환 및 용어 조회 변환은 형태소 분석을 통하여 용어를 분리하는 매우 유용한 작업입니다. 하지만, 영어에 대해서만 지원한다는 아쉬운 점이 있습니다.
'연구개발 > DTS & SSIS' 카테고리의 다른 글
따라하기 - 피벗 변환 구현 (0) | 2009.06.20 |
---|---|
기본 강좌 32 - 피벗 변환, 피벗 해제 변환 (0) | 2009.06.20 |
기본 강좌 30 - 병합 조인 변환 (0) | 2009.06.20 |
기본 강좌 29 - 병합 변환 (0) | 2009.06.20 |
기본 강좌 28 - 열 가져오기, 열 내보내기 변환 (0) | 2009.06.20 |