摘要 |
데이터를 프로파일링하는 것은 각각의 특정 컬렉션에 대해 정량적 정보를 저장하기 위해 레코드들의 다수 컬렉션들을 액세스하는 단계 - 상기 특정 컬렉션에서 레코드들의 적어도 하나의 선택된 필드에 대해, 값 카운트 엔트리들의 대응하는 리스트(300A-300C), 각각은 상기 선택된 필드에서 나타나는 값 및 상기 값이 나타나는 레코드들의 개수의 카운트를 포함함 - 를 포함한다. 둘 이상의 컬렉션들의 정량적 정보를 처리하는 단계는: 값 카운트 엔트리들의 결합된 리스트(304)를 생성하기 위해 제1 컬렉션 및 제2 컬렉션 각각으로부터 적어도 하나의 필드에 대하여 대응하는 리스트들의 상기 값 카운트 엔트리들을 병합하는 단계(302), 및 별개 값을 식별하고 상기 별개 값이 상기 둘 이상의 컬렉션들 각각에 대해 나타나는 레코드들의 수를 정량화하는 정보를 포함하는 별개 필드 값 엔트리들의 리스트(308)를 생성하기 위해 상기 값 카운트 엔트리들의 결합된 리스트의 값 카운트 엔트리들을 집계하는 단계(306)를 포함한다. |