Material de treinamento
Uma crítica comum às redes neurais, particularmente na robótica, é que elas exigem uma grande diversidade de treinamento para operação no mundo real. Isto não é surpreendente, uma vez que qualquer máquina de aprendizagem precisa de exemplos representativos suficientes para capturar a estrutura subjacente que lhe permite generalizar para novos casos. Dean A. Powerless, em sua pesquisa apresentada no artigo “Treinamento Baseado em Conhecimento de Redes Neurais Artificiais para Condução Autônoma de Robôs”, usa uma rede neural para treinar um veículo robótico para dirigir em vários tipos de estradas (pista única, pista múltipla, terra, etc.). Grande parte de sua pesquisa é dedicada a (1) extrapolar múltiplos cenários de treinamento a partir de uma única experiência de treinamento e (2) preservar a diversidade de treinamento passado para que o sistema não fique sobretreinado (se, por exemplo, for apresentado a uma série de curvas à direita - ele não deve aprender a virar sempre à direita). Esses problemas são comuns em redes neurais que devem decidir a partir de uma ampla variedade de respostas, mas podem ser tratados de diversas maneiras, por exemplo, embaralhando aleatoriamente exemplos de treinamento, usando um algoritmo de otimização numérica que não executa passos muito grandes ao alterar as conexões de rede seguindo um exemplo, ou agrupando exemplos nos chamados minilotes.
Questões teóricas
AK Dewdney"), um cientista matemático e de ciência da computação da Universidade de Western Ontario e ex-colunista da Scientific American, escreveu em 1997: "Embora as redes neurais resolvam alguns problemas de brinquedo, seu poder de computação é tão limitado que estou surpreso que ninguém as leve a sério como uma ferramenta geral de resolução de problemas." Nenhuma rede neural jamais demonstrou resolver problemas computacionalmente difíceis, como o problema das N-Queens, o problema do caixeiro viajante ou o problema de fatorar números inteiros grandes.
Além de sua utilidade, uma objeção fundamental às redes neurais artificiais é que elas não conseguem refletir como funcionam os neurônios reais. A propagação retroativa está no cerne das redes neurais artificiais e, além de não haver nenhuma evidência de qualquer mecanismo para tais redes neurais naturais,[54], ela parece contradizer o princípio fundamental dos neurônios reais de que a informação só pode fluir para frente ao longo do axônio. Ainda não se sabe como a informação é codificada pelos neurônios reais. O que se sabe é que os neurônios sensoriais disparam potenciais de ação com mais frequência com a ativação do sensor e as células musculares disparam com mais força quando seus neurônios motores associados recebem potenciais de ação com mais frequência.[55] Além do caso mais simples de apenas transmitir informações de um neurônio para um neurônio motor sensor, quase nada se sabe sobre os princípios gerais subjacentes de como a informação é tratada por redes neurais reais.
O objetivo das redes neurais artificiais não é necessariamente replicar a função neural real, mas inspirar-se nas redes neurais naturais como uma abordagem à computação inerentemente paralela que fornece soluções para problemas que até agora eram intratáveis. Portanto, uma afirmação central das redes neurais artificiais é que elas incorporam algum princípio geral novo e poderoso para o processamento de informações. Infelizmente, esses princípios gerais são mal definidos e muitas vezes considerados emergentes da própria rede neural. Isso permite uma associação estatística simples (a função básica das redes neurais artificiais), que é descrita como aprendizado ou reconhecimento. Como resultado, as redes neurais artificiais têm, de acordo com Dewdney, uma "qualidade um tanto ruim, que transmite uma aura peculiar de preguiça e uma distinta falta de curiosidade sobre quão bons são esses sistemas de computação. Nenhuma mão (ou mente) humana intervém; soluções. Eles se encontram como num passe de mágica, e ninguém, ao que parece, aprendeu nada."
Problemas de hardware.
A implementação de software de rede neural grande e eficiente requer recursos consideráveis de processamento e armazenamento. Embora o cérebro tenha adaptado seu hardware para a tarefa de processamento de sinais por meio de um gráfico de neurônios, simular até mesmo uma forma simplificada na arquitetura von Neumann pode forçar um projetista de redes neurais a usar muitos milhões de linhas de banco de dados para suas conexões, o que pode consumir grandes quantidades de RAM e espaço no disco rígido. Além disso, o projetista de sistemas de redes neurais muitas vezes precisará usar uma quantidade incrível de poder de processamento e tempo de CPU para simular a transmissão de sinais através de muitas dessas conexões e de seus neurônios associados.
Jürgen Schmidhuber observa que o ressurgimento das redes neurais no século 20, e seu sucesso renovado em tarefas de reconhecimento de imagem, é em grande parte atribuível aos avanços no hardware: de 1991 a 2015, o poder de computação, especialmente fornecido por GPGPUs (em GPUs), aumentou cerca de um milhão de vezes, tornando o algoritmo de retropropagação padrão viável para redes de treinamento que são várias camadas mais profundas do que antes. (mas ele acrescenta que isso não resolve problemas algorítmicos como o problema do desaparecimento do gradiente "de uma forma fundamental"). Usar a GPU em vez de CPUs comuns pode reduzir o tempo de treinamento de algumas redes de meses para poucos dias.
O poder computacional continua a crescer mais ou menos de acordo com a Lei de Moore, que pode fornecer recursos suficientes para realizar novas tarefas. A engenharia neuromórfica aborda diretamente a dificuldade do hardware, construindo chips não-von Neumann com circuitos projetados para implementar redes neurais do zero. O Google também projetou um chip otimizado para processamento de rede neural chamado Tensor Processing Unit, ou TPU.
Contra-exemplos práticos à crítica.
Os argumentos contra a posição de Dewdney são que as redes neurais têm sido usadas com sucesso para resolver muitas tarefas complexas e diversas, desde aviões pilotando de forma autônoma até detecção de fraudes em cartões de crédito.
O redator de tecnologia Roger Bridgman comentou as declarações de DEWDNEY sobre redes neurais:
As redes neurais, por exemplo, estão no banco dos réus não apenas porque foram alardeadas aos céus (o que você tem, certo?), mas também porque você pode criar uma rede bem-sucedida sem entender como ela funciona: a pilha de números que captura seu comportamento seria muito provavelmente "uma tabela opaca e ilegível... sem valor como recurso científico".
Apesar da sua afirmação enfática de que ciência não é tecnologia, parece que Dewdney está aqui para ridicularizar as redes neurais como má ciência, quando a maioria daqueles que as concebem estão a tentar ser bons engenheiros. Ainda valeria a pena ter uma tabela legível que uma máquina útil pudesse ler.
Embora seja verdade que é difícil analisar o que foi aprendido por uma rede neural artificial, é muito mais fácil fazer isso do que analisar o que foi aprendido por uma rede neural biológica. Por outro lado, os pesquisadores envolvidos na exploração de algoritmos de aprendizagem para redes neurais estão gradualmente descobrindo princípios genéricos que permitem que uma máquina de aprendizagem seja bem-sucedida. Por exemplo, Bengio e LeCun (2007) escreveram um artigo sobre aprendizagem local versus aprendizagem local. Arquitetura não local, bem como arquitetura superficial versus profunda.
Abordagens híbridas.
Algumas outras críticas vêm dos proponentes de modelos híbridos (combinação de redes neurais e abordagens simbólicas), que acreditam que a mistura destas duas abordagens pode capturar melhor os mecanismos da mente humana.