샘플링 변환
행 샘플링 변환 및 비율 샘플링 변환을 이용하여 전체 데이터에서 샘플 데이터를 추출하는 작업을 수행할 수 있습니다. 행 샘플링 변환은 입력 데이터에서 지정한 행 수만큼 샘플 대상을 추출하여 출력하는 작업이며, 비율 샘플링 변환은 입력되는 데이터에 대해 정해진 비율만큼을 대상으로 추출하여 출력하는 작업입니다.
데이터 샘플링은 데이터 관련 작업에서 자주 수행되는 작업 형태 중 하나입니다. 예로 다음과 같은 경우를 생각해 볼 수 있습니다.
1. 전체 회원 데이터 중, 특정 수 만큼의 샘플 대상을 추출해야 할 경우
2. 웹 로그 데이터와 같이 대량의 데이터에 대해 전수조사 대신 표본조사를 수행해야 할 경우
행 샘플링 변환과 비율 샘플링 변환은 거의 유사하지만, 샘플의 수을 정하는 방법에서만 차이가 있습니다.
예를 들어 100,000개 샘플과 같이 정확한 수의 샘플이 필요할 때에는 행 샘플링 변환을 사용하며, 원본 데이터의 10% 또는 원본 데이터의 3% 등과 같은 형태로 비율로 설정할 때에는 비율 샘플링 변환을 이용하면 됩니다.
Ÿ 샘플 출력 이름 – 입력 데이터에 대해 샘플 행 수 또는 행의 백분율만큼의 샘플 데이터를 추출한 후, 출력할 경로의 이름을 지정합니다. 예를 들어 1,000개의 데이터 중 행의 백분율로 30으로 정했다면, “선택된 행에서 샘플링 출력” 이라는 경로로 300개의 데이터가 출력되고, “선택되지 않은 행에서 샘플링 출력” 이라는 경로로 나머지 700개의 데이터가 출력됩니다.
Ÿ 선택하지 않은 출력 이름 – 샘플링을 해서 출력시킨 후, 남은 데이터를 출력할 경로를 지정합니다.
Ÿ 다음과 같은 임의 초기값 사용 – 이 옵션을 체크하지 않으면, 변환 작업이 수행될 때마다 항상 다른 샘플을 추출하게 됩니다. 하지만, 이 옵션을 체크한 후, 임의의 초기값(Seed 값)을 지정하게 되면, 동일 데이터에 대해 Seed 값에 따라 출력되는 값은 항상 동일합니다. 동일 샘플에 대해 계속해서 조사를 하는 추적 조사(Tracking Research)의 대상 선정이나, 문제가 있는 샘플에 대한 프로그램 개발 작업 등에서 이용할 수 있습니다.
행 샘플링 변환은 입력 데이터를 전부 다 읽은 후 샘플을 추출하여 출력하는데 비해, 비율 샘플링 변환은 어느 정도의 데이터가 입력되면 동시에 샘플링 한 데이터를 출력합니다. 또한, 행 샘플링 변환은 변환 편집기에서 지정한 숫자만큼 정확히 샘플을 추출하지만, 비율 샘플링 변환은 약간의 오차가 있을 수 있습니다. 즉, 10,000,000개의 데이터에 대해 30%라고 지정을 하더라도, 정확히 3,000,000개의 데이터가 출력되지 않고 3,000,000개 내외의 데이터가 추출될 수 있습니다.
패키지 수행 시 출력 비교
행 샘플링과 비율 샘플링의 정확도 차이
'연구개발 > DTS & SSIS' 카테고리의 다른 글
기본 강좌 36 - 유사 항목 그룹화 변환 (0) | 2009.06.20 |
---|---|
기본 강좌 35 - 유사 항목 조회 변환 (0) | 2009.06.20 |
기본 강좌 33 - 조회 변환 (0) | 2009.06.20 |
따라하기 - 피벗 변환 구현 (0) | 2009.06.20 |
기본 강좌 32 - 피벗 변환, 피벗 해제 변환 (0) | 2009.06.20 |