Um analista de dados deseja criar um modelo para classificação de documentos em duas categorias: sigilosos e públicos. À sua disposição, existe um conjunto de dados com N documentos, dos quais uma fração α deles é sigilosa. O analista quer escolher uma fração β dos N documentos para pertencer ao conjunto de teste. O objetivo é garantir que cada uma das classes (documentos sigilosos e públicos) seja responsável, em média, por ao menos 10% do total de documentos. Essa restrição precisa ser válida tanto no conjunto de treino quanto no conjunto de teste. Um par (α,β) que satisfaz as restrições do analista é: