Modelos de risco estrutural neural | Construpedia

Modelos de risco estrutural neural

Introdução

Em geral

No aprendizado de máquina, uma rede neural artificial (abreviada ANN ou NN) é um modelo dentro dos chamados sistemas conexionistas, inspirado na estrutura e função de redes neurais biológicas em cérebros de animais. Uma RNA consiste em unidades ou nós conectados chamados neurônios artificiais, que modelam vagamente os neurônios no cérebro. Eles são conectados por arestas, que modelam as sinapses do cérebro. Cada neurônio artificial recebe “sinais” de neurônios conectados, depois os processa e envia um sinal para outros neurônios conectados. O “sinal” é um número real, e a saída de cada neurônio é calculada por uma função não linear da soma de suas entradas, chamada função de ativação. A intensidade do sinal em cada conexão é determinada por um peso, que é ajustado durante o processo de aprendizagem.

Os neurônios geralmente são agrupados em camadas. Diferentes camadas podem realizar diferentes transformações em suas entradas. Os sinais viajam da primeira camada (a camada de entrada) até a última camada (a camada de saída), possivelmente passando por múltiplas camadas intermediárias (camadas ocultas). Uma rede normalmente é chamada de rede neural profunda se tiver pelo menos duas camadas ocultas.

Treinamento

As redes neurais são normalmente treinadas por meio da minimização empírica de riscos. Este método é baseado na ideia de otimizar os parâmetros da rede para minimizar a diferença, ou risco empírico, entre o resultado previsto e os valores alvo reais em um determinado conjunto de dados. Métodos baseados em gradiente, como Backpropagation, geralmente são usados para estimar parâmetros de rede. Durante a fase de treinamento, as RNAs aprendem com os dados de treinamento rotulados, atualizando iterativamente seus parâmetros para minimizar uma Função de Perda definida. Redes neurais artificiais são usadas para diversas tarefas, como modelagem preditiva, controle adaptativo e resolução de problemas no campo da inteligência artificial. Eles podem aprender com a experiência e tirar conclusões de um conjunto de informações complexo e aparentemente não relacionado. Eles se destacam em áreas onde a detecção de soluções ou recursos é difícil de expressar com programação convencional. Para realizar esse aprendizado de máquina, normalmente tentamos minimizar uma função de perda que avalia a rede como um todo. Os valores dos pesos dos neurônios são atualizados buscando reduzir o valor da função de perda. Este processo é feito por propagação para trás.

Modelos de risco estrutural neural

Introdução

Em geral

Treinamento

História

Contenido

Warren McCulloch y Walter Pitts[1] (1943) crearon un modelo informático para redes neuronales, que se llama lógica umbral, que se basa en las matemáticas y los algoritmos. Este modelo señaló el camino para que la investigación de redes neuronales se divida en dos enfoques distintos. Un enfoque se centró en los procesos biológicos en el cerebro y el otro se centró en la aplicación de redes neuronales para la inteligencia artificial.

O aprendizado de Hebb

No final da década de 1940, o psicólogo Donald Hebb[2][3] criou uma hipótese de aprendizagem baseada no mecanismo de plasticidade neuronal que hoje é conhecido como aprendizagem de Hebb. A aprendizagem de Hebb é considerada uma aprendizagem não supervisionada "típica" e suas variantes posteriores foram os primeiros modelos de potencialização de longo prazo. Os pesquisadores começaram a aplicar essas ideias a modelos computacionais em 1948 com a sugestão de Turing de que o córtex infantil humano é o que ele chamou de "máquina desorganizada" (também conhecida como "máquina de Turing Tipo B").[4][5].

Farley e Wesley A. Clark")[6] (1954) inicialmente usaram máquinas de computação, então chamadas de "calculadoras", para simular uma rede Hebb no MIT. Outras simulações computacionais de redes neurais foram criadas por Rochester, Holland, Habit e Duda (1956).[7].

Frank Rosenblatt[8][9] (1958) criou o perceptron, um algoritmo de reconhecimento de padrões baseado em uma rede de aprendizagem computacional de duas camadas, que usava adição e subtração simples. Usando notação matemática, Rosenblatt também descreve circuitos que não estão no perceptron básico, como o circuito ou exclusivo, um circuito que não poderia ser processado por redes neurais antes da criação do algoritmo de retropropagação por Paul Werbos (1975).[10].

Em 1959, um modelo biológico proposto por dois ganhadores do Prêmio Nobel, David H. Hubel e Torsten Wiesel, baseou-se na descoberta de dois tipos de células no córtex visual primário: células simples e células complexas.[11].

O primeiro relatório sobre redes funcionais multicamadas foi publicado em 1965 por Ivakhnenko e Lapa, e é conhecido como método de clustering para gerenciamento de dados[12][13][14].

A pesquisa de redes neurais foi interrompida após a publicação da pesquisa de aprendizado de máquina de Marvin Minsky e Seymour Papert (1969),[15] que revelou dois problemas fundamentais com as máquinas computacionais que processam redes neurais. A primeira foi que os perceptrons básicos eram incapazes de processar o circuito exclusivo ou. O segundo grande problema era que os computadores não tinham poder de processamento suficiente para lidar com eficácia com o grande tempo de execução exigido pelas grandes redes neurais.

Propagação retroativa e ressurgimento

Um avanço importante posterior foi o algoritmo de retropropagação, que resolve efetivamente o problema do ou exclusivo e, em geral, o problema do treinamento rápido de redes neurais multicamadas (Werbos 1975). O processo de retropropagação utiliza a diferença entre o resultado produzido e o resultado desejado para alterar os “pesos” das conexões entre os neurônios artificiais.[10].

Em meados da década de 1980, o processamento distribuído paralelo tornou-se popular sob o nome de conexionismo. O livro de David E. Rumelhart") e James McClelland&action=edit&redlink=1 "James McClelland (psicólogo) (ainda não escrito)") (1986) fornece uma exposição abrangente do uso do conexionismo em computadores para simular processos neurais.[16].

As redes neurais, tal como utilizadas na inteligência artificial, têm sido tradicionalmente consideradas modelos simplificados de processamento neural no cérebro, embora a relação entre este modelo e a arquitetura biológica do cérebro seja debatida; Não está claro até que ponto as redes neurais artificiais refletem o funcionamento do cérebro.

Máquinas de vetores de suporte e outros métodos muito mais simples, como classificadores lineares, gradualmente ganharam popularidade no aprendizado de máquina. No entanto, o uso de redes neurais mudou alguns campos, como a previsão de estruturas proteicas[17][18].

Em 1992, o max-pooling (uma forma de subamostragem, na qual os dados são divididos em grupos de tamanhos iguais, que não possuem elementos em comum, e apenas o valor máximo de cada grupo é transmitido) foi introduzido para ajudar no reconhecimento de objetos tridimensionais.

[20]

[21].

Em 2010, o uso de max-pooling no treinamento de retropropagação foi acelerado por GPUs e demonstrou oferecer melhor desempenho do que outros tipos de pooling.[22].

O problema do desvanecimento do gradiente afeta redes neurais feedforward multicamadas, que usam propagação para trás, e também redes neurais recorrentes (RNNs).[23][24] Embora os erros se propaguem de camada para camada, eles diminuem exponencialmente com o número de camadas, e isso impede o ajuste retroativo dos pesos dos neurônios com base nesses erros. As redes profundas são particularmente afetadas.

Para superar esse problema, Schmidhuber adotou uma hierarquia multicamadas de redes (1992) pré-formada, uma camada por vez, por aprendizado não supervisionado, e refinada por retropropagação.

À medida que os desafios anteriores no treinamento de redes neurais profundas foram resolvidos com métodos como pré-treinamento não supervisionado e aumento do poder de computação através do uso de GPUs e computação distribuída, as redes neurais foram novamente implantadas em larga escala, especialmente em problemas de processamento de imagens e reconhecimento visual. Isso ficou conhecido como “aprendizado profundo”, embora o aprendizado profundo não seja estritamente sinônimo de redes neurais profundas.

Projetos baseados em hardware

Dispositivos de computação para simulação biofísica, bem como computação neuromórfica, foram criados em CMOS. Nanodispositivos[27] para análise e convolução de componentes principais em grande escala podem criar uma nova classe de computação neural, porque são fundamentalmente analógicos em vez de digitais (embora as primeiras implementações possam usar dispositivos digitais).[28] Ciresan e colegas (2010)[29] no grupo de Schmidhuber mostraram que, apesar do problema de desvanecimento de gradiente, as GPUs tornam a retropropagação viável para redes neurais feedforward com múltiplas camadas.

Melhorias desde 2006

Dispositivos computacionais foram criados em CMOS, tanto para simulação biofísica quanto para computação neuromórfica. Esforços mais recentes mostram-se promissores na criação de nanodispositivos[30] para análise de componentes principais em larga escala. Se for bem sucedido, criará uma nova classe de computação neural, uma vez que se baseia na aprendizagem automática em vez de programação e porque é fundamentalmente analógica em vez de digital, embora as primeiras instâncias possam de facto ser com dispositivos CMOS digitais.[31].

Entre 2009 e 2012, redes neurais recorrentes e redes neurais profundas feedforward desenvolvidas no grupo de pesquisa de Jürgen Schmidhuber no laboratório suíço de IA IDSIA) venceram oito competições internacionais em reconhecimento de padrões e aprendizado de máquina. Por exemplo, a memória de longo curto prazo (LSTM) bidirecional e multidimensional de Alex Graves ganhou três competições de reconhecimento de caligrafia conectada na Conferência Internacional sobre Análise e Reconhecimento de Documentos (ICDAR). 2009, sem qualquer conhecimento prévio sobre as três diferentes línguas que podem ser aprendidas.

Implementações deste método baseadas em unidades de processamento gráfico rápido, feitas por Dan Ciresan e seus colegas da IDSIA") ganharam várias competições de reconhecimento de padrões, incluindo a Competição de Reconhecimento de Sinais de Trânsito de 2011,[32] o Desafio ISBI de 2012 para Segmentação de Estruturas Neurais em Séries de Imagens de Microscopia Eletrônica,[33] e outras. Suas redes neurais também foram os primeiros reconhecedores de padrões artificiais a alcançar um desempenho superior ao humano em benchmarks importantes, como tráfego reconhecimento de sinais (IJCNN 2012) ou o problema de classificação de dígitos manuscritos.

Arquiteturas profundas altamente não lineares semelhantes às do Neocognitron de Kunihiko Fukushima de 1980) e a "arquitetura padrão da visão", inspirada nas células simples e complexas identificadas por David H. Hubel e Torsten Wiesel no córtex visual, também podem ser pré-formadas por métodos não supervisionados no laboratório da Universidade de Toronto. Uma equipe deste laboratório venceu em 2012 um concurso patrocinado pela Merck para projetar software que ajudasse a encontrar moléculas que poderiam levar a novos medicamentos.

Modelos

Los modelos de redes neuronales en la inteligencia artificial se refieren generalmente a las redes neuronales artificiales (RNA); estos son modelos matemáticos esencialmente simples que definen una función f:X→Y o una distribución más X o ambos X e Y. Pero a veces los modelos también están íntimamente asociadas con un algoritmo de aprendizaje en particular o regla de aprendizaje. Un uso común de la frase «modelo ANN» es en realidad la definición de una clase de tales funciones (donde los miembros de la clase se obtiene variando parámetros, los pesos de conexión, o específicos de la arquitectura, tales como el número de neuronas o su conectividad).

Função de rede

A palavra rede no termo “rede neural artificial” refere-se às interconexões entre neurônios nas diferentes camadas de cada sistema. Um sistema exemplar possui três camadas. A primeira camada possui neurônios de entrada que enviam dados através de sinapses para a segunda camada de neurônios e, em seguida, através de mais sinapses para a terceira camada de neurônios de saída. Sistemas mais complexos terão mais camadas, algumas aumentando as camadas de entrada e saída dos neurônios. As sinapses armazenam parâmetros chamados “pesos” que manipulam dados em cálculos.

Uma RNA é normalmente definida por três tipos de parâmetros:

O padrão de interconexão entre as diferentes camadas de neurônios.

O processo de aprendizagem para atualização dos pesos das interconexões.

A função de ativação que converte as entradas ponderadas de um neurônio em sua ativação na saída.

Matematicamente, a função de rede de um neurônio é definida como uma composição de outras funções. Isto é representado como uma estrutura de rede, com setas representando as dependências entre variáveis. Um tipo de composição amplamente utilizado é a soma ponderada não linear, onde, onde k (comumente referida como função de ativação[34]) é uma função predefinida, como a tangente hiperbólica ou função sigmóide. A característica importante da função de ativação é que ela fornece uma transição suave conforme os valores de entrada mudam, ou seja, uma pequena mudança na entrada produz uma pequena mudança na saída. Será conveniente referir-se a uma coleção de funções simplesmente como um vetor.

Esta figura representa uma decomposição de tal, com as dependências entre as variáveis indicadas pelas setas. Estes podem ser interpretados de duas maneiras.

A primeira visão é a visão funcional: a entrada é transformada em um vetor tridimensional, que é então transformado em um vetor bidimensional, que finalmente é transformado em. Esta visão é mais comumente encontrada no contexto de otimização "Otimização (matemática)").

A segunda visão é a visão probabilística: a variável aleatória depende da variável aleatória , Que depende de , Que depende da variável aleatória. Essa visão é mais comumente encontrada no contexto de modelos gráficos.

As duas visões são amplamente equivalentes. Em qualquer caso, para esta arquitetura de rede específica, os componentes das camadas individuais são independentes uns dos outros (por exemplo, os componentes são independentes uns dos outros, dada a sua contribuição). Isto naturalmente permite um certo grau de paralelismo na execução.

Redes como as acima são comumente chamadas de feed-forward, porque seu gráfico é um gráfico direcionado acíclico. Redes com ciclos de "caminho (teoria dos grafos)" são comumente chamadas de recorrentes. Tais redes são comumente representadas da maneira mostrada na parte superior da figura, onde são mostradas como dependentes de si mesmas. No entanto, nenhuma dependência temporal implícita é mostrada.

O aprendizado

O que mais tem atraído interesse nas redes neurais é a possibilidade de aprendizado. Dada uma certa tarefa a ser resolvida e uma classe de funções, o aprendizado consiste em usar um conjunto de observações para descobrir qual delas resolve a tarefa de alguma forma ótima.

Isto envolve a definição de uma função de custo tal que, para a solução ótima. Ou seja, nenhuma solução tem um custo menor que o custo da solução ótima.

A função custo é um conceito importante na aprendizagem, pois representa o quão longe uma determinada solução está da solução ótima para o problema a ser resolvido. Algoritmos de aprendizagem pesquisam no espaço de soluções para encontrar uma função que tenha o menor custo possível.

Para aplicações onde a solução depende de alguns dados, o custo deve necessariamente ser uma função das observações, caso contrário não estaríamos modelando tudo relacionado aos dados. Muitas vezes é definido como uma estatística que só pode ser aproximada. Como exemplo simples, considere o problema de encontrar o modelo que minimiza, para pares de dados extraídos de alguma distribuição. Em situações práticas teríamos apenas amostras de e, portanto, para o exemplo anterior, teríamos apenas minimize . Portanto, o custo é minimizado pela geração de uma amostra dos dados, em vez de toda a distribuição dos dados.

Onde alguma forma de aprendizado de máquina online deve ser usada, onde o custo é parcialmente minimizado à medida que cada novo exemplo é visto. Embora o aprendizado de máquina on-line seja frequentemente usado quando corrigido, ele é mais útil no caso em que a distribuição muda lentamente ao longo do tempo. Nos métodos de redes neurais, alguma forma de aprendizado de máquina on-line é frequentemente usada para conjuntos de dados finitos.

Escolhendo uma função de custo

Embora seja possível definir alguma função de custo, muitas vezes um custo específico será utilizado, seja porque possui propriedades desejáveis (como convexidade) ou porque surge naturalmente de uma formulação específica do problema (por exemplo, em uma formulação probabilística a probabilidade posterior do modelo pode ser usada como um custo inverso). Em última análise, a função de custo dependerá da tarefa desejada.

Paradigmas de aprendizagem

Existem três paradigmas principais de aprendizagem, cada um correspondendo a uma tarefa de aprendizagem abstrata específica. Estes são aprendizado supervisionado **, aprendizado não supervisionado e aprendizado por reforço.

Na aprendizagem supervisionada, recebemos uma série de exemplos emparelhados e o objetivo é encontrar uma função na classe permitida de funções que corresponda aos exemplos. Em outras palavras, queremos inferir o mapeamento derivado dos dados; A função de custo está relacionada à incompatibilidade entre nosso mapeamento e os dados, e contém implicitamente conhecimento prévio sobre o domínio do problema.[35].

Um custo comumente usado é o erro quadrático médio, que tenta minimizar o erro quadrático médio entre as saídas da rede e o valor alvo em todos os pares exemplares. Quando se tenta minimizar esse custo usando "gradiente descendente" para a classe de redes neurais chamadas perceptrons multicamadas (MLP), obtém-se o algoritmo de retropropagação comum e bem conhecido para treinamento de redes neurais.

As tarefas que se enquadram no paradigma de aprendizagem supervisionada são o reconhecimento de padrões (também conhecido como classificação) e a regressão (também conhecida como aproximação de função). O paradigma de aprendizagem supervisionada também é aplicável a dados sequenciais (por exemplo, fala, escrita e reconhecimento de gestos). Isto pode ser considerado como uma forma de aprendizagem com um “professor”, na forma de uma função que fornece feedback contínuo sobre a qualidade das soluções obtidas até o momento.

Na aprendizagem não supervisionada, alguns dados são fornecidos e a função de custo é minimizada, que pode ser qualquer função dos dados e da saída da rede, ..

A função de custo depende da tarefa (o que estamos tentando modelar) e de nossas suposições implícitas a priori (as propriedades de nosso modelo, seus parâmetros e as variáveis observadas).

Como exemplo trivial, considere o modelo onde é uma constante e é custo. Minimizar esse custo nos dará um valor igual à média dos dados. A função de custo pode ser muito mais complicada. Sua forma depende da aplicação: por exemplo, na compressão pode estar relacionada à informação mútua entre e, enquanto na modelagem estatística, pode estar relacionada à probabilidade posterior do modelo dados os dados (observe que em ambos os exemplos essas quantidades seriam maximizadas em vez de minimizadas).

As tarefas que se enquadram no paradigma de aprendizagem não supervisionada são, em geral, estimativa de problemas; As aplicações incluem clustering, estimativa de distribuições estatísticas, compactação de dados e filtragem bayesiana de spam.

Na aprendizagem por reforço, os dados geralmente não são fornecidos, mas gerados pela interação de um agente com o ambiente. A cada momento, o agente realiza uma ação e o ambiente gera uma observação e um custo instantâneo, de acordo com alguma dinâmica (geralmente desconhecida). O objectivo é descobrir uma para seleccionar acções que minimize alguma medida de custo a longo prazo, por exemplo, o custo cumulativo esperado. A dinâmica ambiental e os custos a longo prazo de cada política geral são desconhecidos, mas podem ser estimados.

Tipo de entrada

Finalmente, as RNAs também podem ser classificadas de acordo com sua capacidade de processar diferentes tipos de informações:

• - Redes analógicas: processam dados de entrada com valores contínuos e, geralmente, limitados. Exemplos deste tipo de redes são: Hopfield "Hopfield (RNA)"), Kohonen "Kohonen (RNA)") e redes de aprendizagem competitiva).

• - Redes discretas: processam dados de entrada de natureza discreta; geralmente valores lógicos booleanos. Exemplos deste segundo tipo de redes são: as máquinas de Boltzmann e Cauchy"), e a rede discreta de Hopfield "Hopfield (RNA)").

Algoritmos de aprendizagem

La formación de un modelo de red neuronal en esencia significa seleccionar un modelo de la serie de modelos permitidos (o, en un bayesiano marco, la determinación de una distribución en el conjunto de modelos permitidos) que minimiza el criterio de costo. Hay numerosos algoritmos disponibles para la formación de los modelos de redes neuronales; la mayoría de ellos puede ser vista como una aplicación directa de la teoría de optimización "Optimización (matemática)") y la estimación estadística.

La mayoría de los algoritmos utilizados en las redes neuronales artificiales de formación emplean alguna forma de descenso de gradiente, utilizando propagación hacia atrás para calcular los gradientes reales. Esto se hace simplemente tomando la derivada de la función de coste con respecto a los parámetros de la red y a continuación, cambiando los parámetros en una dirección relacionada al gradiente. Los algoritmos de formación de propagación hacia atrás generalmente se clasifican en tres categorías:.

Descenso del gradiente (con tasa variable de aprendizaje y momentum, retropropagación elástica (Rprop));.

- cuasi-Newton ( Broyden-Fletcher-Goldfarb-Shannon"), Método de la secante );.

- Levenberg-Marquardt") y gradiente conjugado (actualización Fletcher-Reeves, actualizaación Polak-Ribiere, Powell-Beale reinicio, gradiente conjugado escalado).[42].

Métodos evolutivos,[43] de programación de la expresión génica,[44] de recocido simulado,[45] de esperanza-maximización, los métodos no paramétricos y la optimización por enjambre de partículas[46] son algunos otros métodos para la formación de redes neuronales.

Este es un método de aprendizaje específicamente diseñado para redes neuronales controladores de articulación (CMAC por sus siglas en inglés) de modelo cerebelosa. En 2004, un algoritmo recursivo de mínimos cuadrados fue introducido para formar en línea redes neuronales CMAC.[47] Este algoritmo puede converger en un solo paso, y actualizar todos los pesos en un solo paso con cualquier dato nuevo de entrada. Al principio, este algoritmo tenía complejidad computacional de O(N). Basado en factorización QR, este algoritmo recursivo de aprendizaje había sido simplificado para hacerlo O(N).[48].

O uso de redes neurais artificiais

Talvez a maior vantagem das RNAs seja a sua capacidade de serem usadas como um mecanismo de função de aproximação arbitrária que “aprende” com os dados observados. No entanto, a sua utilização não é tão simples e uma compreensão relativamente boa da teoria subjacente é essencial.

Com a aplicação certa, as RNAs podem ser usadas naturalmente em aprendizagem on-line e em aplicações de grandes conjuntos de dados. Sua aplicação simples e a existência de dependências principalmente locais expostas no framework permitem implementações rápidas e paralelas em hardware.

Aplicativos

RNA las hacen bastante apropiadas para aplicaciones en las que no se dispone a priori de un modelo identificable que pueda ser programado, pero se dispone de un conjunto básico de ejemplos de entrada (previamente clasificados o no). Asimismo, son altamente robustas tanto al ruido como a la disfunción de elementos concretos y son fácilmente paralelizables.

Esto incluye problemas de clasificación y reconocimiento de patrones de voz, imágenes, señales, etc. Asimismo se han utilizado para encontrar patrones de fraude económico, hacer predicciones en el mercado financiero, hacer predicciones de tiempo atmosférico, etc.

También se pueden utilizar cuando no existen modelos matemáticos precisos o algoritmos con complejidad razonable, por ejemplo la red de Kohonen ha sido aplicada con un éxito más que razonable al clásico problema del viajante (un problema para el que no se conoce solución algorítmica de complejidad polinómica).

Otro tipo especial de redes neuronales artificiales se ha aplicado en conjunción con los algoritmos genéticos (AG) para crear controladores para robots. La disciplina que trata la evolución de redes neuronales mediante algoritmos genéticos se denomina Robótica Evolutiva. En este tipo de aplicación el genoma del AG lo constituyen los parámetros de la red (topología, algoritmo de aprendizaje, funciones de activación, etc.) y la adecuación de la red viene dada por la adecuación del comportamiento exhibido por el robot controlado (normalmente una simulación de dicho comportamiento).

Aplicações da vida real

As tarefas aplicadas às redes neurais artificiais tendem a se enquadrar nas seguintes categorias gerais:

• - Aproximação de funções ou análise de regressão, incluindo previsão de séries temporais, funções de aptidão") e modelagem.

• - Classificação, incluindo reconhecimento de padrões e reconhecimento de sequências, detecção e tomada de decisão sequencial.

• - Processamento de dados, incluindo filtragem, agrupamento,[49] separação cega de sinais") e compressão.

• - Robótica, incluindo direção de manipuladores e próteses.

• - Engenharia de controle, incluindo controle numérico computadorizado.

As áreas de aplicação incluem identificação e controle de sistemas (controle de veículos, previsão de trajetória,[50] controle de processos, gerenciamento de recursos naturais), química quântica, jogos e tomada de decisões (gamão, xadrez, pôquer), reconhecimento de padrões (sistemas de radar, reconhecimento facial, classificação de sinais,[51] reconhecimento de objetos e muito mais), reconhecimento de sequências (gestos, voz, reconhecimento de texto manuscrito), diagnóstico médico, aplicações econômico-financeiras (por exemplo, sistemas automatizados para comércio em diversos setores de atividade), mineração de dados (ou descoberta de conhecimento em bancos de dados, "KDD"), visualização, tradução automática, diferenciação entre relatórios desejados e indesejados em redes sociais,[52] prevenção de spam por e-mail.

Redes neurais artificiais também têm sido utilizadas para o diagnóstico de vários tipos de câncer. Um sistema híbrido de detecção de câncer de pulmão baseado em RNA, chamado HLND, melhora a precisão do diagnóstico e a velocidade da radiologia do câncer de pulmão. Essas redes também têm sido usadas para diagnosticar câncer de próstata. O diagnóstico pode ser usado para fazer modelos específicos retirados de um grande grupo de pacientes em comparação com informações de um determinado paciente. Os modelos não dependem de suposições sobre as correlações de diferentes variáveis. O uso de redes neurais também foi planejado para o câncer colorretal. As redes neurais poderiam prever o resultado de um paciente com câncer colorretal com mais precisão do que os métodos clínicos atuais. Após a formação, as redes poderiam prever vários resultados de pacientes de instituições relacionadas, entre outras coisas.

Redes Neurais e Neurociências

A Neurociência Teórica e Computacional é a área que trata da análise teórica e modelagem computacional de sistemas neurais biológicos. Como os sistemas neurais estão intimamente relacionados aos processos cognitivos e comportamentais, o campo está intimamente relacionado à modelagem cognitiva e comportamental.

O objetivo da área é modelar sistemas neurais biológicos para entender como funcionam os sistemas biológicos. Para obter essa compreensão, os neurocientistas se esforçam para fazer uma ligação entre os processos biológicos observados (dados), mecanismos biologicamente plausíveis para processamento e aprendizagem neural (modelos de redes neurais biológicas) e teoria (teoria da aprendizagem estatística e teoria da informação).

Tipos de modelos.

Muitos modelos são usados na área, definindo em diferentes níveis de abstração e modelando diferentes aspectos dos sistemas neurais. Eles se estendem desde modelos do comportamento de curto prazo de neurônios individuais), depois modelos do surgimento da dinâmica dos circuitos neurais desde a interação entre neurônios individuais até, finalmente, modelos do surgimento do comportamento de módulos neurais abstratos representando subsistemas inteiros. Estes incluem modelos de plasticidade de longo e curto prazo, e de sistemas neurais e suas relações com a aprendizagem e memória de neurônios individuais no nível do sistema.

Redes com memória.

A integração de componentes de memória externa com redes neurais artificiais tem uma longa história que remonta às primeiras pesquisas sobre representações distribuídas e mapas auto-organizados. Por exemplo, na memória distribuída esparsa, os padrões codificados por redes neurais são usados como endereços de memória para memória de conteúdo endereçável, com "neurônios" servindo essencialmente como codificadores e decodificadores de endereços.

Mais recentemente, o aprendizado profundo provou ser útil em hashing semântico, onde um modelo gráfico profundo de vetores de contagem de palavras é obtido a partir de um grande conjunto de documentos. Os documentos são mapeados para endereços de memória de tal forma que documentos semanticamente semelhantes sejam encontrados em endereços próximos. Documentos semelhantes a um documento de consulta podem então ser encontrados simplesmente acessando todos os endereços que diferem apenas em alguns bits do endereço do documento de consulta.

Memory Networks é outra extensão de redes neurais que incorporam memória de longo prazo que foi desenvolvida pela Facebook Research.[53] A memória de longo prazo pode ser lida e gravada, com o objetivo de usá-la para previsões. Esses modelos foram aplicados no contexto de “busca de respostas” (QA), onde a memória de longo prazo realmente atua como uma base de conhecimento (dinâmica) e o resultado é uma resposta textual.

Poder de cálculo

O perceptron multicamadas") é uma aproximação da função universal, conforme mostrado pelo teorema da aproximação universal"). Porém, o teste não é construtivo quanto ao número de neurônios necessários, à topologia da rede, à configuração dos pesos e aos parâmetros de aprendizagem.

O trabalho de Hava Siegelmann") e Eduardo D. Sontag forneceram provas de que uma arquitetura recorrente específica com pesos com valores racionais (em oposição aos pesos com valores de números reais de precisão total) tem todo o poder de uma máquina de Turing universal usando um número finito de neurônios e conexões lineares padrão. Além disso, foi demonstrado que o uso de valores irracionais para pesos resulta em uma máquina com poder super-Turing.

Habilidade.

Os modelos de redes neurais artificiais possuem uma propriedade chamada “capacidade”, que corresponde aproximadamente à sua capacidade de modelar qualquer função. Está relacionado à quantidade de informações que podem ser armazenadas na rede e à noção de complexidade.

Convergência.

Em geral, nada se pode dizer sobre a convergência, uma vez que depende de uma série de factores. Primeiro, pode haver muitos mínimos locais. Isso depende da função de custo e do modelo. Em segundo lugar, não é possível garantir que o método de otimização utilizado convirja quando estiver longe de um mínimo local. Terceiro, para uma grande quantidade de dados ou parâmetros, alguns métodos tornam-se impraticáveis. Em geral, as garantias teóricas sobre a convergência revelaram-se um guia fiável para a aplicação prática.

Generalização e estatísticas.

Em aplicações onde o objetivo é criar um sistema que generalize bem para exemplos inéditos, surgiu o problema do overtraining. Isto surge em sistemas complicados ou excessivamente especificados, quando a capacidade da rede excede significativamente os parâmetros livres necessários. Existem duas escolas de pensamento para evitar este problema: A primeira é usar técnicas semelhantes de validação cruzada&action=edit&redlink=1 "Validação cruzada (estatísticas) (ainda não escritas)") e verificar a presença de overtraining e selecionar hiper- de forma ideal que o erro de generalização seja minimizado. A segunda é usar algum tipo de regularização&action=edit&redlink=1 "Regularização (matemática) (ainda não escrita)"). Este é um conceito que surge naturalmente num quadro probabilístico (bayesiano), onde a regularização pode ser realizada selecionando uma probabilidade anterior maior em modelos mais simples; mas também na teoria da aprendizagem estatística, onde o objetivo é minimizar mais de duas quantidades: o "risco empírico" e o "risco estrutural", que corresponde aproximadamente ao erro no conjunto de treinamento e ao erro de previsão em dados que não são vistos devido ao overfitting. Redes neurais supervisionadas que usam uma função de custo de erro quadrático médio (MSE) podem usar métodos estatísticos formais para determinar a confiança do modelo treinado. O MSE em um conjunto de validação pode ser usado como uma estimativa da variância. Este valor pode ser utilizado para calcular o intervalo de confiança da saída da rede, assumindo uma distribuição normal. Uma análise de confiança realizada desta forma é estatisticamente válida desde que a distribuição de probabilidade de saída permaneça a mesma e a rede não seja modificada.

Ao atribuir uma função de ativação softmax, uma generalização da função logística, na camada de saída da rede neural (ou um componente softmax em uma rede neural baseada em componentes) às variáveis categóricas alvo, as saídas podem ser interpretadas como as probabilidades. Isto é muito útil na classificação, pois dá uma medida da segurança nas classificações.

A função de ativação do softmax é:.

A crítica

Material de treinamento

Uma crítica comum às redes neurais, particularmente na robótica, é que elas exigem uma grande diversidade de treinamento para operação no mundo real. Isto não é surpreendente, uma vez que qualquer máquina de aprendizagem precisa de exemplos representativos suficientes para capturar a estrutura subjacente que lhe permite generalizar para novos casos. Dean A. Powerless, em sua pesquisa apresentada no artigo “Treinamento Baseado em Conhecimento de Redes Neurais Artificiais para Condução Autônoma de Robôs”, usa uma rede neural para treinar um veículo robótico para dirigir em vários tipos de estradas (pista única, pista múltipla, terra, etc.). Grande parte de sua pesquisa é dedicada a (1) extrapolar múltiplos cenários de treinamento a partir de uma única experiência de treinamento e (2) preservar a diversidade de treinamento passado para que o sistema não fique sobretreinado (se, por exemplo, for apresentado a uma série de curvas à direita - ele não deve aprender a virar sempre à direita). Esses problemas são comuns em redes neurais que devem decidir a partir de uma ampla variedade de respostas, mas podem ser tratados de diversas maneiras, por exemplo, embaralhando aleatoriamente exemplos de treinamento, usando um algoritmo de otimização numérica que não executa passos muito grandes ao alterar as conexões de rede seguindo um exemplo, ou agrupando exemplos nos chamados minilotes.

Questões teóricas

AK Dewdney"), um cientista matemático e de ciência da computação da Universidade de Western Ontario e ex-colunista da Scientific American, escreveu em 1997: "Embora as redes neurais resolvam alguns problemas de brinquedo, seu poder de computação é tão limitado que estou surpreso que ninguém as leve a sério como uma ferramenta geral de resolução de problemas." Nenhuma rede neural jamais demonstrou resolver problemas computacionalmente difíceis, como o problema das N-Queens, o problema do caixeiro viajante ou o problema de fatorar números inteiros grandes.

Além de sua utilidade, uma objeção fundamental às redes neurais artificiais é que elas não conseguem refletir como funcionam os neurônios reais. A propagação retroativa está no cerne das redes neurais artificiais e, além de não haver nenhuma evidência de qualquer mecanismo para tais redes neurais naturais,[54], ela parece contradizer o princípio fundamental dos neurônios reais de que a informação só pode fluir para frente ao longo do axônio. Ainda não se sabe como a informação é codificada pelos neurônios reais. O que se sabe é que os neurônios sensoriais disparam potenciais de ação com mais frequência com a ativação do sensor e as células musculares disparam com mais força quando seus neurônios motores associados recebem potenciais de ação com mais frequência.[55] Além do caso mais simples de apenas transmitir informações de um neurônio para um neurônio motor sensor, quase nada se sabe sobre os princípios gerais subjacentes de como a informação é tratada por redes neurais reais.

O objetivo das redes neurais artificiais não é necessariamente replicar a função neural real, mas inspirar-se nas redes neurais naturais como uma abordagem à computação inerentemente paralela que fornece soluções para problemas que até agora eram intratáveis. Portanto, uma afirmação central das redes neurais artificiais é que elas incorporam algum princípio geral novo e poderoso para o processamento de informações. Infelizmente, esses princípios gerais são mal definidos e muitas vezes considerados emergentes da própria rede neural. Isso permite uma associação estatística simples (a função básica das redes neurais artificiais), que é descrita como aprendizado ou reconhecimento. Como resultado, as redes neurais artificiais têm, de acordo com Dewdney, uma "qualidade um tanto ruim, que transmite uma aura peculiar de preguiça e uma distinta falta de curiosidade sobre quão bons são esses sistemas de computação. Nenhuma mão (ou mente) humana intervém; soluções. Eles se encontram como num passe de mágica, e ninguém, ao que parece, aprendeu nada."

Problemas de hardware.

A implementação de software de rede neural grande e eficiente requer recursos consideráveis de processamento e armazenamento. Embora o cérebro tenha adaptado seu hardware para a tarefa de processamento de sinais por meio de um gráfico de neurônios, simular até mesmo uma forma simplificada na arquitetura von Neumann pode forçar um projetista de redes neurais a usar muitos milhões de linhas de banco de dados para suas conexões, o que pode consumir grandes quantidades de RAM e espaço no disco rígido. Além disso, o projetista de sistemas de redes neurais muitas vezes precisará usar uma quantidade incrível de poder de processamento e tempo de CPU para simular a transmissão de sinais através de muitas dessas conexões e de seus neurônios associados.

Jürgen Schmidhuber observa que o ressurgimento das redes neurais no século 20, e seu sucesso renovado em tarefas de reconhecimento de imagem, é em grande parte atribuível aos avanços no hardware: de 1991 a 2015, o poder de computação, especialmente fornecido por GPGPUs (em GPUs), aumentou cerca de um milhão de vezes, tornando o algoritmo de retropropagação padrão viável para redes de treinamento que são várias camadas mais profundas do que antes. (mas ele acrescenta que isso não resolve problemas algorítmicos como o problema do desaparecimento do gradiente "de uma forma fundamental"). Usar a GPU em vez de CPUs comuns pode reduzir o tempo de treinamento de algumas redes de meses para poucos dias.

O poder computacional continua a crescer mais ou menos de acordo com a Lei de Moore, que pode fornecer recursos suficientes para realizar novas tarefas. A engenharia neuromórfica aborda diretamente a dificuldade do hardware, construindo chips não-von Neumann com circuitos projetados para implementar redes neurais do zero. O Google também projetou um chip otimizado para processamento de rede neural chamado Tensor Processing Unit, ou TPU.

Contra-exemplos práticos à crítica.

Os argumentos contra a posição de Dewdney são que as redes neurais têm sido usadas com sucesso para resolver muitas tarefas complexas e diversas, desde aviões pilotando de forma autônoma até detecção de fraudes em cartões de crédito.

O redator de tecnologia Roger Bridgman comentou as declarações de DEWDNEY sobre redes neurais:

As redes neurais, por exemplo, estão no banco dos réus não apenas porque foram alardeadas aos céus (o que você tem, certo?), mas também porque você pode criar uma rede bem-sucedida sem entender como ela funciona: a pilha de números que captura seu comportamento seria muito provavelmente "uma tabela opaca e ilegível... sem valor como recurso científico".

Apesar da sua afirmação enfática de que ciência não é tecnologia, parece que Dewdney está aqui para ridicularizar as redes neurais como má ciência, quando a maioria daqueles que as concebem estão a tentar ser bons engenheiros. Ainda valeria a pena ter uma tabela legível que uma máquina útil pudesse ler.

Embora seja verdade que é difícil analisar o que foi aprendido por uma rede neural artificial, é muito mais fácil fazer isso do que analisar o que foi aprendido por uma rede neural biológica. Por outro lado, os pesquisadores envolvidos na exploração de algoritmos de aprendizagem para redes neurais estão gradualmente descobrindo princípios genéricos que permitem que uma máquina de aprendizagem seja bem-sucedida. Por exemplo, Bengio e LeCun (2007) escreveram um artigo sobre aprendizagem local versus aprendizagem local. Arquitetura não local, bem como arquitetura superficial versus profunda.

Abordagens híbridas.

Algumas outras críticas vêm dos proponentes de modelos híbridos (combinação de redes neurais e abordagens simbólicas), que acreditam que a mistura destas duas abordagens pode capturar melhor os mecanismos da mente humana.

Exemplos

Neuralbot do Quake II

Um bot é um programa que simula um jogador humano. O Neuralbot") é um bot do jogo Quake II que utiliza uma rede neural artificial para decidir seu comportamento e um algoritmo genético para aprendizado. É muito fácil testá-lo para ver sua evolução.

Mais informações aqui [1].

Classificador imparcial de proteínas

É um programa que combina diversas técnicas computacionais com o objetivo de classificar famílias de proteínas. Um método possível é usar métricas adaptativas, como mapas "Kohonen (RNA)" auto-organizados e algoritmos genéticos.

O problema da classificação imparcial baseada na expressão de proteínas em aminoácidos pode ser reduzido, conceitualmente, ao seguinte:

• - A identificação de grupos de proteínas que partilham características comuns.

• - A determinação das razões estruturais pelas quais as proteínas em questão estão agrupadas da forma indicada.

• - Evitar a ideia de estabelecer critérios de classificação (“tendenciosos”) baseados em ideias pré-concebidas para conseguir a classificação. Neste sentido, há duas questões a considerar:

Como conseguir a caracterização de proteínas de maneira imparcial

Como conseguir o que precede sem recorrer a medidas de agrupamento que, por sua vez, implicam algum tipo de preconceito relativamente a esse agrupamento.

As RNAs têm sido aplicadas a um número cada vez maior de problemas da vida real e de considerável complexidade, onde sua maior vantagem está na resolução de problemas bastante complexos para a tecnologia atual, sendo problemas que não possuem solução algorítmica ou cuja solução algorítmica é muito complexa para ser encontrada.

Em geral, por serem semelhantes às do cérebro humano, as RNAs são bem nomeadas, pois são boas em resolver problemas que os humanos podem resolver, mas os computadores não. Esses problemas incluem reconhecimento de padrões e previsão do tempo. Em qualquer caso, os humanos têm capacidade de reconhecimento de padrões, mas a capacidade das redes neurais não é afetada pela fadiga, pelas condições de trabalho, pelo estado emocional e pelas compensações.

São conhecidas cinco aplicações tecnológicas difundidas:

- Reconhecimento de textos manuscritos.

- Reconhecimento de fala.

- Simulação de centrais de produção de energia.

- Detecção de explosivos.

- Identificação de alvos radar.

Referências

[1] ↑ McCulloch, Warren; Walter Pitts (1943). «A Logical Calculus of Ideas Immanent in Nervous Activity». Bulletin of Mathematical Biophysics 5 (4): 115-133. doi:10.1007/BF02478259.: https://dx.doi.org/10.1007%2FBF02478259
[2] ↑ Figueroba, Alex. «Ley de Hebb: la base neuropsicológica del aprendizaje». Psicología y mente. Consultado el 24 de octubre de 2018.: https://psicologiaymente.com/neurociencias/ley-de-hebb
[3] ↑ Hebb, Donald (1949). The Organization of Behavior [La Organización del Comportamiento]. Nueva York: Wiley. ISBN 978-1-135-63190-1.: https://books.google.com/books?id=ddB4AgAAQBAJ
[4] ↑ Republicación del artículode Turing de 1948: Turing, A.M. (1992). Collected works of AM Turing — Mechanical Intelligence. [Obras colectivas de AM Turing — Inteligencia mecánica] (en inglés). Elsevier Science Publishers.
[5] ↑ Webster, C.S. (2012). Alan Turing's unorganized machines and artificial neural networks: his remarkable early work and future possibilities [Las máquinas desorganizadas y redes de neuronas artificiales de Alan Turing: su notable trabajo inicial y posibilidades futuras] (en inglés publicación=Evolutionary Intelligence) (5). pp. 35-43.
[6] ↑ Farley, B.G.; W.A. Clark (1954). «Simulation of Self-Organizing Systems by Digital Computer» [Simulación de Sistemas Autoorganizadoras por Computadora Digital]. IRE Transactions on Information Theory 4 (4): 76-84. doi:10.1109/TIT.1954.1057468.: https://dx.doi.org/10.1109%2FTIT.1954.1057468
[7] ↑ Rochester, N.; J.H. Holland; L.H. Habit; W.L. Duda (1956). «Tests on a cell assembly theory of the action of the brain, using a large digital computer» [Pruebas de una teoría de la acción del cerebro por asamblea de células, usando una computadora digital grande]. IRE Transactions on Information Theory 2 (3): 80-93. doi:10.1109/TIT.1956.1056810.: https://dx.doi.org/10.1109%2FTIT.1956.1056810
[8] ↑ Matich, Damián Jorge (2001). «Redes Neuronales: Conceptos Básicos y Aplicaciones.» (PDF). Buenos Aires, Argentina. p. 6. Consultado el 26 de octubre de 2018.: https://www.frro.utn.edu.ar/repositorio/catedras/quimica/5_anio/orientadora1/monograias/matich-redesneuronales.pdf
[9] ↑ Rosenblatt, F. (1958). «The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain». Psychological Review 65 (6): 386-408. PMID 13602029. doi:10.1037/h0042519.: https://archive.org/details/sim_psychological-review_1958-11_65_6/page/386
[10] ↑ a b Werbos, P.J. (1975). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. Harvard University.: https://books.google.com/books?id=z81XmgEACAAJ
[11] ↑ Hubel, David H.; Wiesel, Torsten (2005). Brain and visual perception: the story of a 25-year collaboration [Cerebro y percepción visual: la historia de una colaboración de 25 años]. Oxford University Press US. p. 106. ISBN 978-0-19-517618-6.: https://books.google.com/books?id=8YrxWojxUA4C&pg=PA106
[12] ↑ Schmidhuber, J. (2015). «Deep Learning in Neural Networks: An Overview». Neural Networks 61: 85-117. PMID 25462637. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003.: https://es.wikipedia.org//www.ncbi.nlm.nih.gov/pubmed/25462637
[13] ↑ Ivakhnenko, A. G. (1973). Cybernetic Predicting Devices. CCM Information Corporation.: https://books.google.com/books?id=FhwVNQAACAAJ
[14] ↑ Ivakhnenko, A. G.; Grigorʹevich Lapa, Valentín (1967). Cybernetics and forecasting techniques. American Elsevier Pub. Co.: https://books.google.com/books?id=rGFgAAAAMAAJ
[15] ↑ Minsky, Marvin; Papert, Seymour (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press. ISBN 0-262-63022-2.: https://books.google.com/books?id=Ow1OAQAAIAAJ
[16] ↑ Rumelhart, D.E; McClelland, James (1986). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge: MIT Press. ISBN 978-0-262-63110-5.: https://books.google.com/books?id=davmLgzusB8C
[17] ↑ Qian, N.; Sejnowski, T.J. (1988). «Predicting the secondary structure of globular proteins using neural network models.». Journal of Molecular Biology 202: 865-884. Qian1988.
[18] ↑ Rost, B.; Sander, C. (1993). «Prediction of protein secondary structure at better than 70% accuracy». Journal of Molecular Biology 232: 584-599. Rost1993.
[19] ↑ Weng, J.; Ahuja, N.; Huang, T. S. (1992). «Cresceptron: a self-organizing neural network which grows adaptively». Proc. International Joint Conference on Neural Networks (Baltimore, Maryland) 1: 576-581.: http://www.cse.msu.edu/~weng/research/CresceptronIJCNN1992.pdf
[20] ↑ Weng, J.; Ahuja, N.; Huang, T.S. (1993). «Learning recognition and segmentation of 3-D objects from 2-D images». Proc. 4th International Conf. Computer Vision (Berlin, Alemania): 121-128.: http://www.cse.msu.edu/~weng/research/CresceptronICCV1993.pdf
[21] ↑ Weng, J.; Ahuja, N.; Huang, T.S. (1997). «Learning recognition and segmentation using the Cresceptron». International Journal of Computer Vision 25 (2): 105-139.: http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf
[22] ↑ Scherer, Dominik; Müller, Andreas C.; Behnke, Sven (2010). «Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition». 20th International Conference Artificial Neural Networks (ICANN): 92-101. doi:10.1007/978-3-642-15825-4_10.: https://www.ais.uni-bonn.de/papers/icann2010_maxpool.pdf
[23] ↑ S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen, Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991.: http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf
[24] ↑ Hochreiter, S.; et al. (15 de enero de 2001). «Gradient flow in recurrent nets: the difficulty of learning long-term dependencies». En Kolen, John F.; Kremer, Stefan C., eds. A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons. ISBN 978-0-7803-5369-5.: https://books.google.com/books?id=NWOcMVA64aAC
[25] ↑ J. Schmidhuber. Learning complex, extended sequences using the principle of history compression. Neural Computation, 4, pp. 234–242, 1992.
[26] ↑ Behnke, Sven (2003). Hierarchical Neural Networks for Image Interpretation.. Lecture Notes in Computer Science 2766. Springer.: http://www.ais.uni-bonn.de/books/LNCS2766.pdf
[27] ↑ Yang, J. J.; Pickett, M. D.; Li, X. M.; Ohlberg, D. A. A.; Stewart, D. R.; Williams, R. S. (2008). «Memristive switching mechanism for metal/oxide/metal nanodevice». Nat. Nanotechnol. 3: 429-433. doi:10.1038/nnano.2008.160.: https://dx.doi.org/10.1038%2Fnnano.2008.160
[28] ↑ Strukov, D. B.; Snider, G. S.; Stewart, D. R.; Williams, R. S. (2008). «The missing memristor found». Nature 453 (7191): 80-83. Bibcode:2008Natur.453...80S. PMID 18451858. doi:10.1038/nature06932.: https://archive.org/details/sim_nature-uk_2008-05-01_453_7191/page/80
[29] ↑ Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca María; Schmidhuber, Jürgen (21 de septiembre de 2010). «Deep, Big, Simple Neural Nets for Handwritten Digit Recognition». Neural Computation 22 (12): 3207-3220. ISSN 0899-7667. doi:10.1162/neco_a_00052.: http://www.mitpressjournals.org/doi/10.1162/NECO_a_00052
[30] ↑ Yang, J. J.; Pickett, M. D.; Li, X. M.; Ohlberg, D. A. A.; Stewart, D. R.; Williams, R. S. (2008). «Memristive switching mechanism for metal/oxide/metal nanodevices». Nat. Nanotechnol. 3 (7): 429-433. doi:10.1038/nnano.2008.160.: https://dx.doi.org/10.1038%2Fnnano.2008.160
[31] ↑ Strukov, D. B.; Snider, G. S.; Stewart, D. R.; Williams, R. S. (2008). «The missing memristor found». Nature 453 (7191): 80-83. Bibcode:2008Natur.453...80S. PMID 18451858. doi:10.1038/nature06932.: https://archive.org/details/sim_nature-uk_2008-05-01_453_7191/page/80
[32] ↑ Cireşan, Dan; Meier, Ueli; Masci, Jonathan; Schmidhuber, Jürgen (Agosto de 2012). «Multi-column deep neural network for traffic sign classification». Neural Networks. Selected Papers from IJCNN 2011 32: 333-338. doi:10.1016/j.neunet.2012.02.023.: http://www.sciencedirect.com/science/article/pii/S0893608012000524
[33] ↑ Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L. et al., eds. Advances in Neural Information Processing Systems 25. Curran Associates, Inc. pp. 2843-2851. Se sugiere usar |número-editores= (ayuda).: http://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images.pdf
[34] ↑ «The Machine Learning Dictionary». Archivado desde el original el 26 de agosto de 2018. Consultado el 19 de septiembre de 2018.: https://web.archive.org/web/20180826151959/http://www.cse.unsw.edu.au/~billw/mldict.html#activnfn
[35] ↑ Ojha, Varun Kumar; Abraham, Ajith; Snášel, Václav (1 de abril de 2017). «Metaheuristic design of feedforward neural networks: A review of two decades of research». Engineering Applications of Artificial Intelligence 60: 97-116. doi:10.1016/j.engappai.2017.01.013.: http://www.sciencedirect.com/science/article/pii/S0952197617300234
[36] ↑ Dominic, S.; Das, R.; Whitley, D.; Anderson, C. (July 1991). «Genetic reinforcement learning for neural networks». IJCNN-91-Seattle International Joint Conference on Neural Networks (Seattle, Washington, USA: IEEE). ISBN 0-7803-0164-1. doi:10.1109/IJCNN.1991.155315.: https://archive.org/details/ijcnn91seattlein01ieee
[37] ↑ Hoskins, J.C.; Himmelblau, D.M. (1992). «Process control via artificial neural networks and reinforcement learning». Computers & Chemical Engineering 16 (4): 241-251. doi:10.1016/0098-1354(92)80045-B.: https://archive.org/details/sim_computers-chemical-engineering_1992-04_16_4/page/241
[38] ↑ Bertsekas, D.P.; Tsitsiklis, J.N. (1996). Neuro-dynamic programming. Athena Scientific. p. 512. ISBN 1-886529-10-8.: https://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images
[39] ↑ de Rigo, D.; Rizzoli, A. E.; Soncini-Sessa, R.; Weber, E.; Zenesi, P. (2001). «Neuro-dynamic programming for the efficient management of reservoir networks». Proceedings of MODSIM 2001, International Congress on Modelling and Simulation (Canberra, Australia: Modelling and Simulation Society of Australia and New Zealand). ISBN 0-867405252. doi:10.5281/zenodo.7481. Consultado el 29 de julio de 2012.: https://zenodo.org/record/7482/files/de_Rigo_etal_MODSIM2001_activelink_authorcopy.pdf
[40] ↑ Damas, M.; Salmeron, M.; Díaz, A.; Ortega, J.; Prieto, A.; Olivares, G. (2000). «Genetic algorithms and neuro-dynamic programming: application to water supply networks». Proceedings of 2000 Congress on Evolutionary Computation (La Jolla, California, USA: IEEE). ISBN 0-7803-6375-2. doi:10.1109/CEC.2000.870269.: https://archive.org/details/proceedingsof2000000cong
[41] ↑ Deng, Geng; Ferris, M.C. (2008). «Neuro-dynamic programming for fractionated radiotherapy planning». Springer Optimization and Its Applications. Springer Optimization and Its Applications 12: 47-70. ISBN 978-0-387-73298-5. doi:10.1007/978-0-387-73299-2_3.: https://dx.doi.org/10.1007%2F978-0-387-73299-2_3
[42] ↑ M. Forouzanfar; H. R. Dajani; V. Z. Groza; M. Bolic; S. Rajan (July 2010). Comparison of Feed-Forward Neural Network Training Algorithms for Oscillometric Blood Pressure Estimation. Arad, Romania: IEEE.: https://www.researchgate.net/profile/Mohamad_Forouzanfar/publication/224173336_Comparison_of_Feed-Forward_Neural_Network_training_algorithms_for_oscillometric_blood_pressure_estimation/links/00b7d533829c3a7484000000.pdf?ev=pub_int_doc_dl&origin=publication_detail&inViewer=true&msrp=TyT96%2BjWOHJo%2BVhkMF4IzwHPAImSd442n%2BAkEuXj9qBmQSZ495CpxqlaOYon%2BSlEzWQElBGyJmbBCiiUOV8ImeEqPFXiIRivcrWsWmlPBYU%3D
[43] ↑ de Rigo, D.; Castelletti, A.; Rizzoli, A. E.; Soncini-Sessa, R.; Weber, E. (January 2005). «A selective improvement technique for fastening Neuro-Dynamic Programming in Water Resources Network Management». En Pavel Zítek, ed. Proceedings of the 16th IFAC World Congress – IFAC-PapersOnLine (Prague, Czech Republic: IFAC) 16. ISBN 978-3-902661-75-3. doi:10.3182/20050703-6-CZ-1902.02172. Consultado el 30 de diciembre de 2011.: http://www.nt.ntnu.no/users/skoge/prost/proceedings/ifac2005/Papers/Paper4269.html
[44] ↑ Ferreira, C. (2006). «Designing Neural Networks Using Gene Expression Programming». In A. Abraham, B. de Baets, M. Köppen, and B. Nickolay, eds., Applied Soft Computing Technologies: The Challenge of Complexity, pages 517–536, Springer-Verlag.: http://www.gene-expression-programming.com/webpapers/Ferreira-ASCT2006.pdf
[45] ↑ Da, Y.; Xiurun, G. (July 2005). «An improved PSO-based ANN with simulated annealing technique». En T. Villmann, ed. New Aspects in Neurocomputing: 11th European Symposium on Artificial Neural Networks (Elsevier). doi:10.1016/j.neucom.2004.07.002.: https://dx.doi.org/10.1016%2Fj.neucom.2004.07.002
[46] ↑ Wu, J.; Chen, E. (May 2009). Wang, H., Shen, Y., Huang, T., Zeng, Z., ed. A Novel Nonparametric Regression Ensemble for Rainfall Forecasting Using Particle Swarm Optimization Technique Coupled with Artificial Neural Network. Springer. ISBN 978-3-642-01215-0. doi:10.1007/978-3-642-01513-7-6.: https://dx.doi.org/10.1007%2F978-3-642-01513-7-6
[47] ↑ Ting Qin, et al. A learning algorithm of CMAC based on RLS. Neural Processing Letters 19.1 (2004): 49–61.
[48] ↑ Ting Qin, et al. Continuous CMAC-QRLS and its systolic array. Neural Processing Letters 22.1 (2005): 1–16.
[49] ↑ Ochando Terreros, Cantero Obregón, Ventura Soto, Martínez Heredia,, F., A., S., A.M. (Noviembre 2021). «Diseño, implementación, entrenamiento y validación de un sistema de clasificación automático de las muestras de aceites lubricantes y de líquidos hidráulicos basado en Redes de Neuronas Artificiales aplicado al Programa de Análisis de Aceites del Ejército de Tierra». IX Congreso nacional de i+d en Defensa y Seguridad. Consultado el 10-02-2024.: https://www.researchgate.net/publication/364914381_Diseno_implementacion_entrenamiento_y_validacion_de_un_sistema_de_clasificacion_automatico_de_las_muestras_de_aceites_lubricantes_y_de_liquidos_hidraulicos_basado_en_Redes_de_Neuronas_Artificiales_apl
[50] ↑ Zissis, Dimitrios (October 2015). «A cloud based architecture capable of perceiving and predicting multiple vessel behaviour». Applied Soft Computing 35: 652-661. doi:10.1016/j.asoc.2015.07.002.: http://www.sciencedirect.com/science/article/pii/S1568494615004329
[51] ↑ Sengupta, Nandini; Sahidullah, Md; Saha, Goutam (August 2016). «Lung sound classification using cepstral-based statistical features». Computers in Biology and Medicine 75 (1): 118-129. doi:10.1016/j.compbiomed.2016.05.013.: http://www.sciencedirect.com/science/article/pii/S0010482516301263
[52] ↑ Schechner, Sam (15 de junio de 2017). «Facebook Boosts A.I. to Block Terrorist Propaganda». Wall Street Journal (en inglés estadounidense). ISSN 0099-9660. Consultado el 16 de junio de 2017.: https://www.wsj.com/articles/facebook-boosts-a-i-to-block-terrorist-propaganda-1497546000
[53] ↑ https://nmas1.org/news/2018/06/22/fb-musica-ra-tecnologia.: https://nmas1.org/news/2018/06/22/fb-musica-ra-tecnologia
[54] ↑ Crick, Francis (1989). «The recent excitement about neural networks». Nature 337 (6203): 129-132. Bibcode:1989Natur.337..129C. PMID 2911347. doi:10.1038/337129a0.: http://europepmc.org/abstract/med/2911347
[55] ↑ Adrian, Edward D. (1926). «The impulses produced by sensory nerve endings». The Journal of Physiology 61 (1): 49-72. PMC 1514809. PMID 16993776. doi:10.1113/jphysiol.1926.sp002273.: http://onlinelibrary.wiley.com/doi/10.1113/jphysiol.1926.sp002273/full
[56] ↑ Dewdney, A. K. (1 de abril de 1997). Yes, we have no neutrons: an eye-opening tour through the twists and turns of bad science. Wiley. p. 82. ISBN 978-0-471-10806-1.: https://books.google.com/books?id=KcHaAAAAMAAJ&pg=PA82

História

Contenido

O aprendizado de Hebb

O primeiro relatório sobre redes funcionais multicamadas foi publicado em 1965 por Ivakhnenko e Lapa, e é conhecido como método de clustering para gerenciamento de dados[12][13][14].

Propagação retroativa e ressurgimento

[20]

[21].

Em 2010, o uso de max-pooling no treinamento de retropropagação foi acelerado por GPUs e demonstrou oferecer melhor desempenho do que outros tipos de pooling.[22].

Para superar esse problema, Schmidhuber adotou uma hierarquia multicamadas de redes (1992) pré-formada, uma camada por vez, por aprendizado não supervisionado, e refinada por retropropagação.

Projetos baseados em hardware

Melhorias desde 2006

Modelos

Função de rede

Uma RNA é normalmente definida por três tipos de parâmetros:

O padrão de interconexão entre as diferentes camadas de neurônios.

O processo de aprendizagem para atualização dos pesos das interconexões.

A função de ativação que converte as entradas ponderadas de um neurônio em sua ativação na saída.

Esta figura representa uma decomposição de tal, com as dependências entre as variáveis indicadas pelas setas. Estes podem ser interpretados de duas maneiras.

O aprendizado

Isto envolve a definição de uma função de custo tal que, para a solução ótima. Ou seja, nenhuma solução tem um custo menor que o custo da solução ótima.

Escolhendo uma função de custo

Paradigmas de aprendizagem

Na aprendizagem não supervisionada, alguns dados são fornecidos e a função de custo é minimizada, que pode ser qualquer função dos dados e da saída da rede, ..

A função de custo depende da tarefa (o que estamos tentando modelar) e de nossas suposições implícitas a priori (as propriedades de nosso modelo, seus parâmetros e as variáveis observadas).

Tipo de entrada

Finalmente, as RNAs também podem ser classificadas de acordo com sua capacidade de processar diferentes tipos de informações:

Algoritmos de aprendizagem

Descenso del gradiente (con tasa variable de aprendizaje y momentum, retropropagación elástica (Rprop));.

- cuasi-Newton ( Broyden-Fletcher-Goldfarb-Shannon"), Método de la secante );.

- Levenberg-Marquardt") y gradiente conjugado (actualización Fletcher-Reeves, actualizaación Polak-Ribiere, Powell-Beale reinicio, gradiente conjugado escalado).[42].

O uso de redes neurais artificiais

Aplicativos

Aplicações da vida real

As tarefas aplicadas às redes neurais artificiais tendem a se enquadrar nas seguintes categorias gerais:

• - Aproximação de funções ou análise de regressão, incluindo previsão de séries temporais, funções de aptidão") e modelagem.

• - Classificação, incluindo reconhecimento de padrões e reconhecimento de sequências, detecção e tomada de decisão sequencial.

• - Processamento de dados, incluindo filtragem, agrupamento,[49] separação cega de sinais") e compressão.

• - Robótica, incluindo direção de manipuladores e próteses.

• - Engenharia de controle, incluindo controle numérico computadorizado.

Redes Neurais e Neurociências

Tipos de modelos.

Redes com memória.

Poder de cálculo

Habilidade.

Convergência.

Generalização e estatísticas.

A função de ativação do softmax é:.

A crítica

Material de treinamento

Questões teóricas

Problemas de hardware.

Contra-exemplos práticos à crítica.

O redator de tecnologia Roger Bridgman comentou as declarações de DEWDNEY sobre redes neurais:

Abordagens híbridas.

Exemplos

Neuralbot do Quake II

Mais informações aqui [1].

Classificador imparcial de proteínas

O problema da classificação imparcial baseada na expressão de proteínas em aminoácidos pode ser reduzido, conceitualmente, ao seguinte:

• - A identificação de grupos de proteínas que partilham características comuns.

• - A determinação das razões estruturais pelas quais as proteínas em questão estão agrupadas da forma indicada.

Como conseguir a caracterização de proteínas de maneira imparcial

Como conseguir o que precede sem recorrer a medidas de agrupamento que, por sua vez, implicam algum tipo de preconceito relativamente a esse agrupamento.

São conhecidas cinco aplicações tecnológicas difundidas:

- Reconhecimento de textos manuscritos.

- Reconhecimento de fala.

- Simulação de centrais de produção de energia.

- Detecção de explosivos.

- Identificação de alvos radar.

Referências

[1] ↑ McCulloch, Warren; Walter Pitts (1943). «A Logical Calculus of Ideas Immanent in Nervous Activity». Bulletin of Mathematical Biophysics 5 (4): 115-133. doi:10.1007/BF02478259.: https://dx.doi.org/10.1007%2FBF02478259
[2] ↑ Figueroba, Alex. «Ley de Hebb: la base neuropsicológica del aprendizaje». Psicología y mente. Consultado el 24 de octubre de 2018.: https://psicologiaymente.com/neurociencias/ley-de-hebb
[3] ↑ Hebb, Donald (1949). The Organization of Behavior [La Organización del Comportamiento]. Nueva York: Wiley. ISBN 978-1-135-63190-1.: https://books.google.com/books?id=ddB4AgAAQBAJ
[4] ↑ Republicación del artículode Turing de 1948: Turing, A.M. (1992). Collected works of AM Turing — Mechanical Intelligence. [Obras colectivas de AM Turing — Inteligencia mecánica] (en inglés). Elsevier Science Publishers.
[5] ↑ Webster, C.S. (2012). Alan Turing's unorganized machines and artificial neural networks: his remarkable early work and future possibilities [Las máquinas desorganizadas y redes de neuronas artificiales de Alan Turing: su notable trabajo inicial y posibilidades futuras] (en inglés publicación=Evolutionary Intelligence) (5). pp. 35-43.
[6] ↑ Farley, B.G.; W.A. Clark (1954). «Simulation of Self-Organizing Systems by Digital Computer» [Simulación de Sistemas Autoorganizadoras por Computadora Digital]. IRE Transactions on Information Theory 4 (4): 76-84. doi:10.1109/TIT.1954.1057468.: https://dx.doi.org/10.1109%2FTIT.1954.1057468
[7] ↑ Rochester, N.; J.H. Holland; L.H. Habit; W.L. Duda (1956). «Tests on a cell assembly theory of the action of the brain, using a large digital computer» [Pruebas de una teoría de la acción del cerebro por asamblea de células, usando una computadora digital grande]. IRE Transactions on Information Theory 2 (3): 80-93. doi:10.1109/TIT.1956.1056810.: https://dx.doi.org/10.1109%2FTIT.1956.1056810
[8] ↑ Matich, Damián Jorge (2001). «Redes Neuronales: Conceptos Básicos y Aplicaciones.» (PDF). Buenos Aires, Argentina. p. 6. Consultado el 26 de octubre de 2018.: https://www.frro.utn.edu.ar/repositorio/catedras/quimica/5_anio/orientadora1/monograias/matich-redesneuronales.pdf
[9] ↑ Rosenblatt, F. (1958). «The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain». Psychological Review 65 (6): 386-408. PMID 13602029. doi:10.1037/h0042519.: https://archive.org/details/sim_psychological-review_1958-11_65_6/page/386
[10] ↑ a b Werbos, P.J. (1975). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences. Harvard University.: https://books.google.com/books?id=z81XmgEACAAJ
[11] ↑ Hubel, David H.; Wiesel, Torsten (2005). Brain and visual perception: the story of a 25-year collaboration [Cerebro y percepción visual: la historia de una colaboración de 25 años]. Oxford University Press US. p. 106. ISBN 978-0-19-517618-6.: https://books.google.com/books?id=8YrxWojxUA4C&pg=PA106
[12] ↑ Schmidhuber, J. (2015). «Deep Learning in Neural Networks: An Overview». Neural Networks 61: 85-117. PMID 25462637. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003.: https://es.wikipedia.org//www.ncbi.nlm.nih.gov/pubmed/25462637
[13] ↑ Ivakhnenko, A. G. (1973). Cybernetic Predicting Devices. CCM Information Corporation.: https://books.google.com/books?id=FhwVNQAACAAJ
[14] ↑ Ivakhnenko, A. G.; Grigorʹevich Lapa, Valentín (1967). Cybernetics and forecasting techniques. American Elsevier Pub. Co.: https://books.google.com/books?id=rGFgAAAAMAAJ
[15] ↑ Minsky, Marvin; Papert, Seymour (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press. ISBN 0-262-63022-2.: https://books.google.com/books?id=Ow1OAQAAIAAJ
[16] ↑ Rumelhart, D.E; McClelland, James (1986). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge: MIT Press. ISBN 978-0-262-63110-5.: https://books.google.com/books?id=davmLgzusB8C
[17] ↑ Qian, N.; Sejnowski, T.J. (1988). «Predicting the secondary structure of globular proteins using neural network models.». Journal of Molecular Biology 202: 865-884. Qian1988.
[18] ↑ Rost, B.; Sander, C. (1993). «Prediction of protein secondary structure at better than 70% accuracy». Journal of Molecular Biology 232: 584-599. Rost1993.
[19] ↑ Weng, J.; Ahuja, N.; Huang, T. S. (1992). «Cresceptron: a self-organizing neural network which grows adaptively». Proc. International Joint Conference on Neural Networks (Baltimore, Maryland) 1: 576-581.: http://www.cse.msu.edu/~weng/research/CresceptronIJCNN1992.pdf
[20] ↑ Weng, J.; Ahuja, N.; Huang, T.S. (1993). «Learning recognition and segmentation of 3-D objects from 2-D images». Proc. 4th International Conf. Computer Vision (Berlin, Alemania): 121-128.: http://www.cse.msu.edu/~weng/research/CresceptronICCV1993.pdf
[21] ↑ Weng, J.; Ahuja, N.; Huang, T.S. (1997). «Learning recognition and segmentation using the Cresceptron». International Journal of Computer Vision 25 (2): 105-139.: http://www.cse.msu.edu/~weng/research/CresceptronIJCV.pdf
[22] ↑ Scherer, Dominik; Müller, Andreas C.; Behnke, Sven (2010). «Evaluation of Pooling Operations in Convolutional Architectures for Object Recognition». 20th International Conference Artificial Neural Networks (ICANN): 92-101. doi:10.1007/978-3-642-15825-4_10.: https://www.ais.uni-bonn.de/papers/icann2010_maxpool.pdf
[23] ↑ S. Hochreiter. Untersuchungen zu dynamischen neuronalen Netzen, Diploma thesis. Institut f. Informatik, Technische Univ. Munich. Advisor: J. Schmidhuber, 1991.: http://people.idsia.ch/~juergen/SeppHochreiter1991ThesisAdvisorSchmidhuber.pdf
[24] ↑ Hochreiter, S.; et al. (15 de enero de 2001). «Gradient flow in recurrent nets: the difficulty of learning long-term dependencies». En Kolen, John F.; Kremer, Stefan C., eds. A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons. ISBN 978-0-7803-5369-5.: https://books.google.com/books?id=NWOcMVA64aAC
[25] ↑ J. Schmidhuber. Learning complex, extended sequences using the principle of history compression. Neural Computation, 4, pp. 234–242, 1992.
[26] ↑ Behnke, Sven (2003). Hierarchical Neural Networks for Image Interpretation.. Lecture Notes in Computer Science 2766. Springer.: http://www.ais.uni-bonn.de/books/LNCS2766.pdf
[27] ↑ Yang, J. J.; Pickett, M. D.; Li, X. M.; Ohlberg, D. A. A.; Stewart, D. R.; Williams, R. S. (2008). «Memristive switching mechanism for metal/oxide/metal nanodevice». Nat. Nanotechnol. 3: 429-433. doi:10.1038/nnano.2008.160.: https://dx.doi.org/10.1038%2Fnnano.2008.160
[28] ↑ Strukov, D. B.; Snider, G. S.; Stewart, D. R.; Williams, R. S. (2008). «The missing memristor found». Nature 453 (7191): 80-83. Bibcode:2008Natur.453...80S. PMID 18451858. doi:10.1038/nature06932.: https://archive.org/details/sim_nature-uk_2008-05-01_453_7191/page/80
[29] ↑ Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca María; Schmidhuber, Jürgen (21 de septiembre de 2010). «Deep, Big, Simple Neural Nets for Handwritten Digit Recognition». Neural Computation 22 (12): 3207-3220. ISSN 0899-7667. doi:10.1162/neco_a_00052.: http://www.mitpressjournals.org/doi/10.1162/NECO_a_00052
[30] ↑ Yang, J. J.; Pickett, M. D.; Li, X. M.; Ohlberg, D. A. A.; Stewart, D. R.; Williams, R. S. (2008). «Memristive switching mechanism for metal/oxide/metal nanodevices». Nat. Nanotechnol. 3 (7): 429-433. doi:10.1038/nnano.2008.160.: https://dx.doi.org/10.1038%2Fnnano.2008.160
[31] ↑ Strukov, D. B.; Snider, G. S.; Stewart, D. R.; Williams, R. S. (2008). «The missing memristor found». Nature 453 (7191): 80-83. Bibcode:2008Natur.453...80S. PMID 18451858. doi:10.1038/nature06932.: https://archive.org/details/sim_nature-uk_2008-05-01_453_7191/page/80
[32] ↑ Cireşan, Dan; Meier, Ueli; Masci, Jonathan; Schmidhuber, Jürgen (Agosto de 2012). «Multi-column deep neural network for traffic sign classification». Neural Networks. Selected Papers from IJCNN 2011 32: 333-338. doi:10.1016/j.neunet.2012.02.023.: http://www.sciencedirect.com/science/article/pii/S0893608012000524
[33] ↑ Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L. et al., eds. Advances in Neural Information Processing Systems 25. Curran Associates, Inc. pp. 2843-2851. Se sugiere usar |número-editores= (ayuda).: http://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images.pdf
[34] ↑ «The Machine Learning Dictionary». Archivado desde el original el 26 de agosto de 2018. Consultado el 19 de septiembre de 2018.: https://web.archive.org/web/20180826151959/http://www.cse.unsw.edu.au/~billw/mldict.html#activnfn
[35] ↑ Ojha, Varun Kumar; Abraham, Ajith; Snášel, Václav (1 de abril de 2017). «Metaheuristic design of feedforward neural networks: A review of two decades of research». Engineering Applications of Artificial Intelligence 60: 97-116. doi:10.1016/j.engappai.2017.01.013.: http://www.sciencedirect.com/science/article/pii/S0952197617300234
[36] ↑ Dominic, S.; Das, R.; Whitley, D.; Anderson, C. (July 1991). «Genetic reinforcement learning for neural networks». IJCNN-91-Seattle International Joint Conference on Neural Networks (Seattle, Washington, USA: IEEE). ISBN 0-7803-0164-1. doi:10.1109/IJCNN.1991.155315.: https://archive.org/details/ijcnn91seattlein01ieee
[37] ↑ Hoskins, J.C.; Himmelblau, D.M. (1992). «Process control via artificial neural networks and reinforcement learning». Computers & Chemical Engineering 16 (4): 241-251. doi:10.1016/0098-1354(92)80045-B.: https://archive.org/details/sim_computers-chemical-engineering_1992-04_16_4/page/241
[38] ↑ Bertsekas, D.P.; Tsitsiklis, J.N. (1996). Neuro-dynamic programming. Athena Scientific. p. 512. ISBN 1-886529-10-8.: https://papers.nips.cc/paper/4741-deep-neural-networks-segment-neuronal-membranes-in-electron-microscopy-images
[39] ↑ de Rigo, D.; Rizzoli, A. E.; Soncini-Sessa, R.; Weber, E.; Zenesi, P. (2001). «Neuro-dynamic programming for the efficient management of reservoir networks». Proceedings of MODSIM 2001, International Congress on Modelling and Simulation (Canberra, Australia: Modelling and Simulation Society of Australia and New Zealand). ISBN 0-867405252. doi:10.5281/zenodo.7481. Consultado el 29 de julio de 2012.: https://zenodo.org/record/7482/files/de_Rigo_etal_MODSIM2001_activelink_authorcopy.pdf
[40] ↑ Damas, M.; Salmeron, M.; Díaz, A.; Ortega, J.; Prieto, A.; Olivares, G. (2000). «Genetic algorithms and neuro-dynamic programming: application to water supply networks». Proceedings of 2000 Congress on Evolutionary Computation (La Jolla, California, USA: IEEE). ISBN 0-7803-6375-2. doi:10.1109/CEC.2000.870269.: https://archive.org/details/proceedingsof2000000cong
[41] ↑ Deng, Geng; Ferris, M.C. (2008). «Neuro-dynamic programming for fractionated radiotherapy planning». Springer Optimization and Its Applications. Springer Optimization and Its Applications 12: 47-70. ISBN 978-0-387-73298-5. doi:10.1007/978-0-387-73299-2_3.: https://dx.doi.org/10.1007%2F978-0-387-73299-2_3
[42] ↑ M. Forouzanfar; H. R. Dajani; V. Z. Groza; M. Bolic; S. Rajan (July 2010). Comparison of Feed-Forward Neural Network Training Algorithms for Oscillometric Blood Pressure Estimation. Arad, Romania: IEEE.: https://www.researchgate.net/profile/Mohamad_Forouzanfar/publication/224173336_Comparison_of_Feed-Forward_Neural_Network_training_algorithms_for_oscillometric_blood_pressure_estimation/links/00b7d533829c3a7484000000.pdf?ev=pub_int_doc_dl&origin=publication_detail&inViewer=true&msrp=TyT96%2BjWOHJo%2BVhkMF4IzwHPAImSd442n%2BAkEuXj9qBmQSZ495CpxqlaOYon%2BSlEzWQElBGyJmbBCiiUOV8ImeEqPFXiIRivcrWsWmlPBYU%3D
[43] ↑ de Rigo, D.; Castelletti, A.; Rizzoli, A. E.; Soncini-Sessa, R.; Weber, E. (January 2005). «A selective improvement technique for fastening Neuro-Dynamic Programming in Water Resources Network Management». En Pavel Zítek, ed. Proceedings of the 16th IFAC World Congress – IFAC-PapersOnLine (Prague, Czech Republic: IFAC) 16. ISBN 978-3-902661-75-3. doi:10.3182/20050703-6-CZ-1902.02172. Consultado el 30 de diciembre de 2011.: http://www.nt.ntnu.no/users/skoge/prost/proceedings/ifac2005/Papers/Paper4269.html
[44] ↑ Ferreira, C. (2006). «Designing Neural Networks Using Gene Expression Programming». In A. Abraham, B. de Baets, M. Köppen, and B. Nickolay, eds., Applied Soft Computing Technologies: The Challenge of Complexity, pages 517–536, Springer-Verlag.: http://www.gene-expression-programming.com/webpapers/Ferreira-ASCT2006.pdf
[45] ↑ Da, Y.; Xiurun, G. (July 2005). «An improved PSO-based ANN with simulated annealing technique». En T. Villmann, ed. New Aspects in Neurocomputing: 11th European Symposium on Artificial Neural Networks (Elsevier). doi:10.1016/j.neucom.2004.07.002.: https://dx.doi.org/10.1016%2Fj.neucom.2004.07.002
[46] ↑ Wu, J.; Chen, E. (May 2009). Wang, H., Shen, Y., Huang, T., Zeng, Z., ed. A Novel Nonparametric Regression Ensemble for Rainfall Forecasting Using Particle Swarm Optimization Technique Coupled with Artificial Neural Network. Springer. ISBN 978-3-642-01215-0. doi:10.1007/978-3-642-01513-7-6.: https://dx.doi.org/10.1007%2F978-3-642-01513-7-6
[47] ↑ Ting Qin, et al. A learning algorithm of CMAC based on RLS. Neural Processing Letters 19.1 (2004): 49–61.
[48] ↑ Ting Qin, et al. Continuous CMAC-QRLS and its systolic array. Neural Processing Letters 22.1 (2005): 1–16.
[49] ↑ Ochando Terreros, Cantero Obregón, Ventura Soto, Martínez Heredia,, F., A., S., A.M. (Noviembre 2021). «Diseño, implementación, entrenamiento y validación de un sistema de clasificación automático de las muestras de aceites lubricantes y de líquidos hidráulicos basado en Redes de Neuronas Artificiales aplicado al Programa de Análisis de Aceites del Ejército de Tierra». IX Congreso nacional de i+d en Defensa y Seguridad. Consultado el 10-02-2024.: https://www.researchgate.net/publication/364914381_Diseno_implementacion_entrenamiento_y_validacion_de_un_sistema_de_clasificacion_automatico_de_las_muestras_de_aceites_lubricantes_y_de_liquidos_hidraulicos_basado_en_Redes_de_Neuronas_Artificiales_apl
[50] ↑ Zissis, Dimitrios (October 2015). «A cloud based architecture capable of perceiving and predicting multiple vessel behaviour». Applied Soft Computing 35: 652-661. doi:10.1016/j.asoc.2015.07.002.: http://www.sciencedirect.com/science/article/pii/S1568494615004329
[51] ↑ Sengupta, Nandini; Sahidullah, Md; Saha, Goutam (August 2016). «Lung sound classification using cepstral-based statistical features». Computers in Biology and Medicine 75 (1): 118-129. doi:10.1016/j.compbiomed.2016.05.013.: http://www.sciencedirect.com/science/article/pii/S0010482516301263
[52] ↑ Schechner, Sam (15 de junio de 2017). «Facebook Boosts A.I. to Block Terrorist Propaganda». Wall Street Journal (en inglés estadounidense). ISSN 0099-9660. Consultado el 16 de junio de 2017.: https://www.wsj.com/articles/facebook-boosts-a-i-to-block-terrorist-propaganda-1497546000
[53] ↑ https://nmas1.org/news/2018/06/22/fb-musica-ra-tecnologia.: https://nmas1.org/news/2018/06/22/fb-musica-ra-tecnologia
[54] ↑ Crick, Francis (1989). «The recent excitement about neural networks». Nature 337 (6203): 129-132. Bibcode:1989Natur.337..129C. PMID 2911347. doi:10.1038/337129a0.: http://europepmc.org/abstract/med/2911347
[55] ↑ Adrian, Edward D. (1926). «The impulses produced by sensory nerve endings». The Journal of Physiology 61 (1): 49-72. PMC 1514809. PMID 16993776. doi:10.1113/jphysiol.1926.sp002273.: http://onlinelibrary.wiley.com/doi/10.1113/jphysiol.1926.sp002273/full
[56] ↑ Dewdney, A. K. (1 de abril de 1997). Yes, we have no neutrons: an eye-opening tour through the twists and turns of bad science. Wiley. p. 82. ISBN 978-0-471-10806-1.: https://books.google.com/books?id=KcHaAAAAMAAJ&pg=PA82

Navegación

Modelos de risco estrutural neural

Introdução

Em geral

Treinamento

Modelos de risco estrutural neural

Introdução

Em geral

Treinamento

História

Contenido

O aprendizado de Hebb

Propagação retroativa e ressurgimento

Projetos baseados em hardware

Melhorias desde 2006

Modelos

Função de rede

O aprendizado

Escolhendo uma função de custo

Paradigmas de aprendizagem

Tipo de entrada

Algoritmos de aprendizagem

O uso de redes neurais artificiais

Aplicativos

Aplicações da vida real

Redes Neurais e Neurociências

Poder de cálculo

A crítica

Material de treinamento

Questões teóricas

As classes e tipos de RNAs

Exemplos

Neuralbot do Quake II

Classificador imparcial de proteínas

Galeria

Ferramentas de software

Referências

História

Contenido

O aprendizado de Hebb

Propagação retroativa e ressurgimento

Projetos baseados em hardware

Melhorias desde 2006

Modelos

Função de rede

O aprendizado

Escolhendo uma função de custo

Paradigmas de aprendizagem

Tipo de entrada

Algoritmos de aprendizagem

O uso de redes neurais artificiais

Aplicativos

Aplicações da vida real

Redes Neurais e Neurociências

Poder de cálculo

A crítica

Material de treinamento

Questões teóricas

As classes e tipos de RNAs

Exemplos

Neuralbot do Quake II

Classificador imparcial de proteínas

Galeria

Ferramentas de software

Referências