Tipos comuns de conjuntos
Classificador bayesiano ideal
O classificador Bayesiano ideal é uma técnica de classificação. Este é um conjunto de todas as hipóteses no espaço de hipóteses. Em média, nenhum outro conjunto pode superá-lo.[16] O classificador Naive Bayes é uma versão deste que assume que os dados são condicionalmente independentes da classe e torna o cálculo mais viável. Cada hipótese recebe um voto proporcional à probabilidade de que o conjunto de dados de treinamento seria amostrado de um sistema se essa hipótese fosse verdadeira. Para facilitar dados de treinamento de tamanho finito, o voto para cada hipótese também é multiplicado pela probabilidade a priori dessa hipótese. O classificador Bayes ideal pode ser expresso com a seguinte equação:.
Onde está a classe prevista, é o conjunto de todas as classes possíveis, é o espaço de hipóteses, refere-se a uma probabilidade e são os dados de treinamento. Como conjunto, o classificador Bayes ótimo representa uma hipótese que não está necessariamente em. No entanto, a hipótese representada pelo classificador Bayes ótimo é a hipótese ótima no espaço de conjuntos (o espaço de todos os conjuntos possíveis formado apenas por hipóteses em ).
Esta fórmula pode ser reformulada utilizando o teorema de Bayes, que diz que a probabilidade posterior é proporcional à probabilidade multiplicada pela probabilidade anterior:.
portanto,.
Agregação de bootstrap (ensaque)
A agregação de bootstrap (bagging) consiste em treinar um conjunto a partir de conjuntos de dados de bootstrap. Um conjunto de bootstrap é criado selecionando o conjunto de dados de treinamento original com substituição. Portanto, um conjunto de bootstrap pode conter um exemplo dado zero, uma vez ou múltiplas vezes. Os membros do conjunto também podem ter limites de recursos (por exemplo, os nós "Nó (computação)" de uma árvore de decisão), para incentivar a exploração de diversos recursos. As informações de variação local em conjuntos de bootstrap e considerações de recursos promovem a diversidade no conjunto e podem fortalecê-lo.[18] Para reduzir o overfitting, um membro pode ser validado usando o conjunto pronto para uso (exemplos que não estão no conjunto). inicialização).[19].
A inferência é realizada votando as previsões dos membros do conjunto, o que é chamado de agregação. Isso é ilustrado abaixo com um conjunto de quatro árvores de decisão. Cada árvore classifica o exemplo de consulta. Como três dos quatro preveem a classe positiva, a classificação geral do conjunto é positiva. Florestas aleatórias como a mostrada são uma aplicação comum de montagem.
Impulsionando
Boosting consiste em treinar modelos sucessivos, enfatizando dados de treinamento mal classificados por modelos aprendidos anteriormente. Inicialmente, todos os dados (D1) têm peso igual e são utilizados para aprender um modelo base M1. Os exemplos classificados incorretamente por M1 recebem um peso maior do que aqueles classificados corretamente. Esses dados aprimorados (D2) são usados para treinar um segundo modelo base M2 e assim por diante. A inferência é feita por votação.
Em alguns casos, o reforço deu melhores resultados do que o ensacamento, mas tende a se ajustar mais. A aplicação mais comum de boosting é Adaboost"), mas alguns algoritmos mais recentes obtêm melhores resultados.
Média do modelo bayesiano
A média do modelo bayesiano (BMA) faz previsões calculando a média das previsões dos modelos ponderados por suas probabilidades a posteriori dados os dados. Sabe-se que o BMA geralmente fornece respostas melhores do que um único modelo, obtido, por exemplo, por regressão stepwise&action=edit&redlink=1 "Regressão stepwise (ainda não escrita)"), especialmente quando modelos muito diferentes têm desempenho quase idêntico no conjunto de treinamento, mas, caso contrário, podem ter desempenho muito diferente.
O problema com qualquer uso do teorema de Bayes é o anterior, ou seja, a probabilidade (talvez subjetiva) de que cada modelo seja o melhor para um determinado propósito. Conceitualmente, o BMA pode ser usado com qualquer anterior. Os pacotes R ensembleBMA[21] e BMA[22] usam a prioridade implícita no critério de informação bayesiano (BIC), seguindo Raftery (1995).[23] O pacote R BAS apoia o uso das prioridades implícitas no critério de informação de Akaike (AIC) e outros critérios em modelos alternativos, bem como prioridades nos coeficientes.[24].
A diferença entre o BIC e o AIC é a força da preferência pela parcimônia. A penalidade do BIC pela complexidade do modelo é , enquanto a do AIC é . A teoria assintótica de grandes amostras afirma que, se existir um melhor modelo, então, com o aumento do tamanho da amostra, o BIC é fortemente consistente, ou seja, é quase certo que você o encontrará, enquanto o AIC pode não, porque o AIC pode continuar a colocar probabilidade posterior excessiva em modelos que são mais complicados do que o necessário. Por outro lado, AIC e AICc são assintoticamente "eficientes" (ou seja, erro quadrático médio mínimo de predição), enquanto BIC não é.[25].
Haussler et al. (1994) mostraram que quando BMA é usado para classificação, seu erro esperado é no máximo duas vezes o erro esperado do classificador ótimo de Bayes.[26] Burnham e Anderson (1998, 2002) contribuíram muito para apresentar as ideias básicas do modelo bayesiano de média para um público mais amplo e popularizar a metodologia.[27] A disponibilidade de software, incluindo outros pacotes de código aberto gratuitos para R, além dos mencionados acima, ajudou. tornar os métodos acessíveis a um público mais amplo.[28].
Combinação bayesiana de modelos
A combinação de modelos bayesianos (BMC) é uma correção algorítmica para a média do modelo bayesiano (BMA). Em vez de amostrar cada modelo do conjunto individualmente, ele é amostrado do espaço de conjuntos possíveis (com pesos de modelo extraídos aleatoriamente de uma distribuição de Dirichlet com parâmetros uniformes). Esta modificação supera a tendência da BMA de convergir e atribuir todo o peso a um único modelo. Embora o BMC seja um pouco mais caro computacionalmente que o BMA, ele tende a produzir resultados muito melhores. Foi demonstrado que o CMO é melhor em média (com significância estatística) do que o BMA e o ensacamento.[29].
Usar a lei de Bayes para calcular os pesos dos modelos requer o cálculo da probabilidade dos dados com base em cada modelo. Normalmente, nenhum dos modelos do conjunto é exatamente a distribuição a partir da qual os dados de treinamento foram gerados, portanto todos recebem corretamente um valor próximo de zero para este termo. Isto funcionaria bem se o conjunto fosse grande o suficiente para amostrar todo o espaço do modelo, mas raramente é possível. Consequentemente, cada padrão nos dados de treinamento fará com que o peso do conjunto se desloque em direção ao modelo de conjunto que melhor corresponda à distribuição dos dados de treinamento. Em essência, tudo se resume a um método desnecessariamente complexo de realizar a seleção de modelos.
Os possíveis pesos de um conjunto podem ser visualizados como se estivessem localizados em um simplex. Em cada vértice do simplex, todo o peso é atribuído a um único modelo no conjunto. O BMA converge para o vértice mais próximo da distribuição dos dados de treinamento. Em vez disso, o BMC converge para o ponto onde esta distribuição é projetada no simplex. Ou seja, ao invés de selecionar o modelo mais próximo da distribuição gerada, procure a combinação de modelos mais próximos da distribuição gerada.
Os resultados do BMA muitas vezes podem ser aproximados usando validação cruzada para selecionar o melhor modelo de um conjunto de modelos. Da mesma forma, os resultados do BMC podem ser aproximados usando validação cruzada para selecionar a melhor combinação de conjuntos a partir de uma amostragem aleatória de pesos possíveis.
Balde de modelos
Um "cubo modelo" é uma técnica de conjunto na qual um algoritmo de seleção de modelo é usado para escolher o melhor modelo para cada problema. Quando testado em um único problema, um cubo de modelos pode não produzir melhores resultados do que o melhor modelo do conjunto, mas quando testado em muitos problemas, normalmente produzirá resultados muito melhores, em média, do que qualquer modelo do conjunto.
O método mais comumente usado para seleção de modelos é a validação cruzada (às vezes chamada de “concurso de panificação”). É descrito com o seguinte pseudocódigo:
A seleção por validação cruzada pode ser resumida como: “experimente todos eles contra o conjunto de treinamento e escolha aquele que funciona melhor”.[30].
Gating é uma generalização da seleção de validação cruzada. Consiste em treinar outro modelo de aprendizagem para decidir qual dos modelos de cubo é o mais adequado para resolver o problema. Freqüentemente, um perceptron é usado para o modelo de gate. Pode ser usado para escolher o “melhor” modelo ou para dar um peso linear às previsões de cada modelo no cubo.
Ao usar um cubo de modelos com um grande conjunto de problemas, pode ser desejável evitar o treinamento de alguns dos modelos que demoram muito para serem treinados. A aprendizagem Milestone é uma abordagem de meta-aprendizagem "Meta-aprendizagem (ciência da computação)" que tenta resolver este problema. Envolve treinar apenas os algoritmos rápidos (mas imprecisos) no cubo e, em seguida, usar o desempenho desses algoritmos para ajudar a determinar qual algoritmo lento (mas preciso) tem maior probabilidade de obter melhores resultados.[31].
Empilhamento
O empilhamento (às vezes chamado de generalização empilhada) envolve o treinamento de um modelo para combinar as previsões de outros algoritmos de aprendizagem. Primeiro, todos os outros algoritmos são treinados usando os dados disponíveis e, em seguida, um algoritmo combinador (estimador final) é treinado para fazer uma previsão final usando todas as previsões dos outros algoritmos (estimadores de base) como entradas adicionais ou usando previsões com validação cruzada dos estimadores de base, o que pode evitar overfitting.[32] Se um algoritmo combinador arbitrário for usado, o empilhamento pode, teoricamente, representar qualquer uma das técnicas de conjunto descritas neste artigo, embora na prática isso frequentemente o faça. Um modelo de regressão logística é usado como combinador.
O empilhamento normalmente fornece melhores resultados do que qualquer modelo treinado separadamente.[33] Ele tem sido usado com sucesso em tarefas de aprendizagem supervisionada (regressão,[34] classificação e ensino à distância)[35] e aprendizagem não supervisionada (estimativa de densidade).[36] Ele também tem sido usado para estimar a taxa de erro de bagging.[3][37] Foi relatado que ele supera a média bayesiana. modelos.[38] Os dois principais resultados do concurso Netflix usaram embaralhamento, que pode ser considerado uma forma de empilhamento.[39].
Voto
Votar é outra forma de assembleia. Veja, por exemplo, o algoritmo de maioria ponderada (aprendizado de máquina).