Departamento de Ciência de Computadores

14 MAIO / TERÇA FEIRA / 21:37

FCUP

Combinação de Algoritmos de Classificação
João Gama

LIACC
Universidade do Porto
Rua do Campo Alegre, 823 4150-180 Porto, Portugal
Março de 2000

Resumo

A capacidade de um algoritmo de aprendizagem induzir,para um determinado problema, uma boa generalização depende da linguagem de representação usada para generalizar os exemplos. Como diferentes algoritmos usam diferentes linguagens de representação e estratégias de procura, são explorados diferentes espaços de procura e são obtidos diferentes resultados.

O problema de encontrar a representação mais adequada para o problema em causa, é uma área de investigação bastante activa. Nesta dissertação, em vez de procurar métodos que fazem o ajuste aos dados usando uma única linguagem de representação, apresentamos uma família de algoritmos, sob a designação genérica de Generalização em Cascata, onde o espaço de procura contem modelos que utilizam diferentes linguagens de representação. A ideia básica do método consiste em utilizar os algoritmos de aprendizagem em sequência. Em cada iteração ocorre um processo com dois passos. No primeiro passo, um classificador constrói um modelo. No segundo passo, o espaço definido pelos atributos é extendido pela inserção de novos atributos gerados utilizando este modelo. Este processo de construção de novos atributos constrói atributos na linguagem de representação do classificador usado para construir o modelo. Se posteriormente na sequência, um classificador utiliza um destes novos atributos para construir o seu modelo, a sua capacidade de representação foi extendida. Desta forma as restrições da linguagem de representação dos classificadores utilizados a mais alto nível na sequência, são relaxadas pela incorporação de termos da linguagem de representação dos classificadores de base. Esta é a metodologia base subjacente ao sistema Ltree e à arquitectura da Generalização em Cascata.

O método é apresentado segundo duas perspectivas. Numa primeira parte, é apresentado como uma estratégia para construir árvores de decisão multivariadas. É apresentado o sistema Ltree que utiliza como operador para a construção de atributos um discriminante linear. Foi o percursor da arquitectura de Generalização em Cascata. Na segunda parte, apresentamos um esquema genérico para combinar classificadores. O método de Generalização em Cascata é uma extensão da metodologia apresentada na primeira parte. Os classificadores de base não são restrictos a funções discriminantes mas generalizados a outros classificadores, podendo ser combinados vários classificadores. Nesta segunda parte definimos as condições que um classificador deve satisfazer para poder ser utilizado neste enquadramento. Definimos também, os critérios para seleccionar o tipo mais adequado de classificadores a utilizar na sequência. Apresentamos duas variantes para a arquitectura de Generalização em Cascata. No primeiro esquema, os classificadores de base são usados como pré-processadores dos dados para a etapa seguinte. Este método pode ser usado para combinar a maioria dos classificadores existentes. O método apenas requer a extensão dos dados iniciais com a probabilidade de distribuição de classes geradas pelo classificador de base. No segundo esquema, os classificadores de base são integrados localmente de uma forma mais aprofundada.

Apesar de nesta tese só termos utilizado Generalização em Cascata Local no contexto de árvores de decisão, o método poderá ser extendido para outros algoritmos que utilizam uma estratégia de dividir-e-conquistar, tais como listas de decisão.

FCUP 2024

Combinação de Algoritmos de Classificação João Gama

LIACC Universidade do Porto Rua do Campo Alegre, 823 4150-180 Porto, Portugal Março de 2000

Resumo

Combinação de Algoritmos de Classificação
João Gama

LIACC
Universidade do Porto
Rua do Campo Alegre, 823 4150-180 Porto, Portugal
Março de 2000