摘要 |
확장가능한 클러스터링 시스템이 설명된다. 일 실시형태에서, 클러스터링 시스템은 수천만의 특징을 갖는 수백만의 아이템이 클러스터링되는 극히 큰 스케일 애플리케이션에 대해 동작할 수 있다. 일 실시형태에서, 클러스터링 시스템은 데이터 세트에서의 불확실성을 모델링하는 확률적 클러스터 모델을 이용하는데, 여기서 데이터 세트는 예를 들어 키워드에 가입한 광고, 텍스트 키워드를 포함하는 텍스트 문서, 연관 특성를 갖는 이미지 또는 기타 아이템일 수 있다. 일 실시형태에서, 클러스터링 시스템은 주어진 아이템과 연관시키기 위한 추가의 특성을 생성하는데 사용된다. 예를 들어, 광고주가 가입하고 싶어할 수 있는 추가의 키워드가 제안된다. 생성되는 추가의 특성은 일부 실시형태에서 이들 특성을 랭킹하는데 사용될 수 있는 연관 확률 값을 갖는다. 일부 예에서 생성된 특성에 대한 사용자 피드백이 수신되고 특성 생성 프로세스를 개정하는데 사용된다. |