Em formação

Como o aprendizado TD explica o condicionamento de traços?

Como o aprendizado TD explica o condicionamento de traços?



We are searching data for your request:

Forums and discussions:
Manuals and reference books:
Data from registers:
Wait the end of the search in all databases.
Upon completion, a link will appear to access the found materials.

Estou lendo Aprendizagem por reforço e modelos causais de Sam Gershman, que afirma que a aprendizagem TD fornece uma descrição do condicionamento de segunda ordem que fornece uma explicação para o fenômeno ocorrido na aprendizagem de rastreamento (pág. 7, terceiro parágrafo). A ideia é a seguinte:

No condicionamento de traços, uma recompensa é apresentada após alguma sugestão A com algum atraso de tempo relativamente grande. Se uma segunda pista, B, for apresentada durante esta lacuna, isso facilita o aprendizado de uma resposta condicional para A. Ele diz que isso ocorre porque B recebe um grande valor positivo que gera um grande erro de predição positiva no deslocamento de A. I não vejo por que isso é verdade. Se você olhar para o aprendizado TD, os valores de A e B devem ser estritamente uma função de sua distância temporal da recompensa, ou seja, $$ gamma ^ {Tt} r_T $$, onde $ t $ é o tempo atual e $ T $ é o momento da recompensa. Ele prossegue dizendo que isso está relacionado a como o erro de previsão é alterado com a presença de B. Alguém poderia me explicar por que ter B aumenta o erro de previsão?


Veja meu comentário acima, mas é possível supor que B adquira o mesmo valor de recompensa que a recompensa original, então B pode então ser tratado como uma recompensa, o que por sua vez traz A para mais perto do evento de recompensa (agora no momento B). Isso faz sentido? Em outras palavras, a adição de B permite que o valor da recompensa passe para B e, assim, aproxima A da recompensa.


Introdução

A diferença definidora entre o retardo e o condicionamento clássico de traço é simples: no condicionamento de retardo, o estímulo não condicionado (US) segue imediatamente ou co-termina com o estímulo condicionado (CS), enquanto no condicionamento de traço, o CS e o US são separados no tempo por um “ trace ”intervalo. Embora simples, essa diferença pode ter efeitos profundos no aprendizado. Primeiro, os sujeitos geralmente requerem mais tentativas para adquirir o condicionamento de traços do que o atraso (Pavlov, 1927 Beylin et al., 2001). Em segundo lugar, o condicionamento de traços requer um hipocampo intacto, enquanto o condicionamento de retardo não (Solomon et al., 1986 McEchron et al., 1998). Em um estudo, ratos lesionados não mostraram nenhuma evidência de condicionamento de piscar de olhos de traço de aprendizagem, mesmo após 1000 tentativas de treinamento (Beylin et al., 2001). No entanto, não se sabe por que o condicionamento de traços depende do hipocampo.

Como a presença de um intervalo de traço torna o CS e o US temporariamente descontínuo, foi proposto que o hipocampo é usado para superar a discontiguidade do estímulo (Wallenstein et al., 1998). Por exemplo, algumas teorias sustentam que o hipocampo é usado para manter um traço de memória do CS para que possa ser associado aos EUA mais tarde. Outra possibilidade é que o contexto de treinamento, que é contíguo tanto ao CS quanto ao US, atue como uma ponte entre os estímulos (Quinn et al., 2002). Isso explicaria o envolvimento do hipocampo no condicionamento de traços porque ratos com lesões no hipocampo mostram uma capacidade prejudicada de usar estímulos contextuais (Kim e Fanselow, 1992 Phillips e LeDoux, 1992 Anagnostaras et al., 2001).

Outras teorias não se baseiam na discontiguidade CS-US. Uma teoria sugere que o hipocampo é necessário para cronometrar as respostas condicionadas no condicionamento de piscar de olhos (Solomon et al., 1986 James et al., 1987). Outra teoria sugere que o condicionamento do traço pode ser mais difícil, e possivelmente dependente do hipocampo, porque os sujeitos devem discriminar o intervalo do traço do intervalo intertrial (Mowrer e Lamoreaux, 1951 Bolles et al., 1978 Kaplan e Hearst, 1982). Finalmente, algumas pesquisas sugerem que o condicionamento de traços depende de uma forma hipocampal de consciência (Clark e Squire, 1998, 2004).

Como várias teorias dependem da discontiguidade do estímulo e várias não, determinar a importância da contiguidade poderia reduzir o número de explicações viáveis. Para este fim, criamos um paradigma de "condicionamento de traço contíguo" (CTC) que é semelhante ao paradigma de condicionamento de medo de traço padrão (ou seja, um CS de ruído branco é separado de um choque de pé US por um intervalo de traço de 30 s). No entanto, no CTC, em vez de o US ser apresentado sozinho, ele é apresentado simultaneamente com um segundo CS (ver Fig. 2UMA) Como o condicionamento simultâneo resulta em pouca ou nenhuma resposta condicionada (Matzel et al., 1988), a adição de um componente simultâneo ao arranjo do traço adiciona contiguidade CS-US, sem aumentar a relação preditiva entre os estímulos. Se a discontiguidade do estímulo é a razão pela qual o condicionamento do traço é dependente do hipocampo, os animais com lesões no hipocampo devem ser capazes de aprender a associação CS-US após o treinamento com o procedimento CTC. No entanto, se o condicionamento do traço requer o hipocampo por outras razões, os ratos lesionados devem ser incapazes de adquirir a resposta condicionada durante o treinamento com o procedimento CTC.


Mecanismos teóricos do condicionamento do medo traço

No condicionamento do medo traço, o CS e os EUA são temporariamente descontínuos. Assim, o deslocamento de CS e o início de US são separados por um intervalo sem estímulo. Durante o teste subsequente, a resposta é mais fraca em comparação com os sujeitos condicionados por retardo, onde o CS e o US coincidem, assim se sobrepondo na apresentação. Esta é uma diferença comportamental robusta que ocorre após relativamente poucas ou muitas tentativas (Ellison, 1964 Kamin, 1961 Pavlov, 1927). A diferença entre o traço e o condicionamento de atraso levou a diferentes relatos teóricos que se concentraram em três mecanismos potenciais. Esses mecanismos incluem diferenças na força associativa (que tem sido o foco teórico da maioria dos estudos neurobiológicos de condicionamento de traços de medo), aprendizado inibitório ou padrão temporal de resposta.

Força associativa enfraquecida

Uma interpretação óbvia das diferenças comportamentais entre o traço e o condicionamento de retardo é que o aumento do intervalo do traço enfraquece a relação entre o CS e o US, resultando em um aprendizado associativo mais pobre em comparação com quando não há nenhum intervalo de traço (Pavlov, 1927). Assim, de acordo com essa interpretação, a diferença no congelamento condicionado entre o condicionamento de retardo e o traço de medo demonstra um déficit na aprendizagem os dois grupos diferem em termos da força associativa do CS. Isso pode ocorrer porque no condicionamento de retardo, o CS é um melhor preditor do US em comparação ao condicionamento de traço, em que o CS não prediz imediatamente o US. Na verdade, o termo & # x0201ctrace & # x0201d originou-se dessa maneira de pensar, com a ideia de que a ativação residual do centro CS no cérebro foi o que foi emparelhado com o parto nos Estados Unidos (Pavlov, 1927). Nas abordagens modernas, este & # x0201ctrace & # x0201d está mais associado à ideia de um traço de memória que decai em função do tempo, resultando em uma representação de CS mais fraca emparelhada com os EUA. A evidência primária para esse relato vem de diferenças simples de comportamento durante o CS. Quando um estímulo diferente intervém entre CS e US, a ligação associativa de CS e US pode ser reforçada (por exemplo, Bolles et al., 1978 Rescorla, 1982). Este efeito de ligação em si pode ocorrer por meio de vários mecanismos que incluem não apenas aprendizado CS-US fortalecido, mas reforço condicionado e configuração de ocasião (Rescorla, 1982 Thomas et al., 1989 Williams, 1991). O desafio, é claro, para uma conta de força associativa enfraquecida é demonstrar que a resposta condicionada enfraquecida na presença do CS reflete aprendizagem associativa enfraquecida sobre a contingência CS-US (por exemplo, Lockhart, 1966 Smith et al., 2007). Os experimentos descritos abaixo sugerem que respostas comportamentais fracas após o condicionamento de traços não são necessariamente indicativas de aprendizagem associativa fraca.

CS como Sinal de Segurança

Um segundo relato da diferença no comportamento induzido pelo condicionamento de traço e retardo concentra-se não nos efeitos sobre o aprendizado excitatório que ocorrem durante o condicionamento, mas, em vez disso, na possibilidade de que o aprendizado inibitório cause resposta reduzida ao CS. De acordo com esse relato, conforme o intervalo de rastreamento aumenta, o CS passa a sinalizar a ausência explícita do US, ou seja, o animal aprende que o US não ocorrerá quando o CS estiver presente (por exemplo, Kalat & # x00026 Rozin, 1973 Moscovitch & # x00026 LoLordo, 1968). Na verdade, à medida que o intervalo de rastreamento é alongado, o procedimento de condicionamento de rastreamento torna-se efetivamente um procedimento explicitamente desemparelhado, no qual o CS e os EUA não têm relação contígua (Smith et al., 2007). Nesses casos, há um comportamento mais contínuo na ausência do CS, porque o contexto por si só prediz melhor os EUA (Marlin, 1981). Consistente com essa ideia, Huerta e colegas (2000) descobriram que um intervalo de 30 s de rastreamento durante o condicionamento resultou em um alto nível de congelamento na ausência do CS. Isso foi seguido por uma depressão de congelamento com início de CS, seguido por uma retomada do congelamento após o término de CS. Isso sugere que o CS pode atuar como um sinal de segurança no condicionamento do medo de rastreamento, sinalizando a ausência explícita de choque. No entanto, a natureza inibitória desse aprendizado, o curso de tempo ao longo do qual ele se desenvolve e as variações de procedimento necessárias para gerá-lo ainda precisam ser determinados.

Cronometragem

Um terceiro relato teórico é que o aprendizado excitatório é mantido, mesmo com intervalos maiores de traços, mas as respostas são cronometradas para a apresentação do US. Embora a resposta medida na presença do SC seja atenuada, o SC ainda retém a capacidade de sinalizar ao animal quando o US ocorrerá. Assim, a resposta fraca na presença do CS após o condicionamento de traços não reflete o que o animal aprende, mas ao invés disso, a resposta (ou alguma outra medida de aprendizagem) precisa ser avaliada no momento da expectativa dos EUA.

Um exame da resposta em bloqueios temporais finos, às vezes, revela que a resposta começa baixo durante o CS, mas aumenta gradualmente para atingir o pico em torno do tempo das apresentações dos EUA anteriores (por exemplo, Drew et al., 2005 Huerta et al., 2000). Com mais condicionamento, esse pico torna-se mais agudo, sugerindo que o SC adquire aprendizagem excitatória temporalmente específica. Assim, a resposta é baixa durante o CS, não necessariamente por causa de sua fraca associação excitatória ou forte inibitória com o US. Em vez disso, há uma forte associação excitatória entre o CS e o momento da apresentação dos EUA, que é revelada pela resposta que atinge o pico no momento da apresentação dos EUA esperada (Balsam, 1984).

A melhor evidência para o momento da resposta condicionada no condicionamento do traço vem de estudos de condicionamento do piscar de olhos, que revelaram que, à medida que o condicionamento do traço progride, o pico de resposta muda em direção ao tempo de ocorrência do US. Esta aprendizagem temporal é específica ao estímulo e mostra seletividade na extinção (Joscelyne & # x00026 Kehoe, 2007 Kehoe & # x00026 Joscelyne, 2005). No condicionamento do medo, que envolve intervalos muito mais longos, há algumas evidências de que as associações CS-US rapidamente aprendidas resultam em uma resposta condicionada sendo programada para coincidir com o tempo em que os EUA são esperados (por exemplo, Burman & # x00026 Gewirtz, 2004 Drew et al., 2005). Para explicar a diferença na força da resposta entre o condicionamento de medo de rastreamento e de retardo, o tempo teria que se desenvolver rapidamente, porque as diferenças no condicionamento de medo de rastreamento e retardo freqüentemente ocorrem após uma única tentativa. A evidência de tempo, medida como o pico de resposta no momento do choque no pé esperado durante um teste de pós-condicionamento, é mista (ver Bevins & # x00026 Ayres, 1995 Davis, et al. 1989 Lattal & # x00026 Abel, 2001). Com base neste exame do comportamento durante o CS, parece que os padrões de resposta temporal ocorrem, mas podem exigir um treinamento extensivo para se desenvolver (ver também Delamater & # x00026 Holland, 2008).

É importante notar, entretanto, que a ausência de um pico de resposta próximo ao tempo esperado dos EUA não significa que os animais não aprendam contingências temporais no início do condicionamento. As teorias do tempo não esperam necessariamente que um padrão de comportamento consistente com as respostas temporizadas seja evidente no comportamento imediatamente (ver Balsam, et al. 2002). De fato, é possível que a ausência de tempo no comportamento reflita um déficit de desempenho em vez de um déficit de aprendizado, ou seja, os animais aprendem as relações temporais com rapidez e precisão, mas leva algum tempo para que esse aprendizado seja expresso no comportamento. Uma série de experimentos de Miller e colegas demonstrou que os animais codificam relações temporais mesmo em situações em que responder na presença do CS não mostra padrões de comportamento associados a uma resposta cronometrada (Cole et al., Molet 1995 et al., 2012). Uma implicação dessa hipótese de codificação temporal é que os animais formam associações temporais rápidas que podem ser reveladas no comportamento por meio de outras formas que não a resposta direta ao estímulo que foi condicionado. Assim, no condicionamento de traço, se o CS sinaliza o momento em que ocorre o US, os emparelhamentos subsequentes desse CS com um segundo estímulo devem resultar na maior associação quando esse segundo CS é apresentado no momento esperado de entrega do US.

Evidências claras disso vêm de estudos de condicionamento de segunda ordem. Na primeira fase de um experimento de condicionamento de segunda ordem, CS X é emparelhado com um US. Na segunda fase, um novo CS A é emparelhado com CS X. À medida que os emparelhamentos A-X aumentam, a resposta condicionada surge na presença de CS A e persiste quando o estímulo é subsequentemente testado por conta própria. Cole et al. (1995) descobriram que o condicionamento de segunda ordem para rastrear pistas foi maior quando o CS de segunda ordem é apresentado imediatamente antes do momento do choque esperado do que quando foi apresentado imediatamente antes do CS de primeira ordem. Isso significa que um arranjo temporal posterior entre A e X produz mais condicionamento do que uma relação anterior. Esta descoberta surpreendente foi estendida a outros procedimentos de condicionamento temporal (por exemplo, Urushihara & # x00026 Miller, 2010) e sugere fortemente que os animais codificam o arranjo temporal de estímulos durante o condicionamento de traços. Esses achados são consistentes com a ideia de que os animais aprendem tanto a associação entre SC e US, quanto a relação temporal entre eles.

O desafio para relatos teóricos com base no tempo é demonstrar que as diferenças no aprendizado de tentativa única entre os grupos de rastreamento e atraso se devem a diferenças no tempo dos EUA. Esta é uma questão não resolvida, pois a maioria dos estudos de condicionamento de traços que mostram o tempo avaliam o desempenho após uma série de tentativas de condicionamento, sugerindo que mesmo que não seja aparente no início, o tempo surge com o treinamento (por exemplo, Burman & # x00026 Gewirtz, 2004) . Outros estudos mostram que há algum grau de aprendizado temporal após uma única tentativa (Davis, et al. 1989), mas não está necessariamente claro como um aumento na resposta comportamental corresponde à codificação de informações temporais precisas. O desafio de usar a expressão da resposta condicionada como a variável dependente chave para distinguir diferentes contas é que não sabemos a relação entre a aprendizagem do intervalo temporal e a expressão dessa aprendizagem no comportamento de congelamento (Balsam et al., 2002 Balsam, 1984 Lockhart, 1966). É possível que a aprendizagem seja expressa de outras maneiras, particularmente no início do condicionamento, e que efeitos nulos no desempenho não correspondam necessariamente a efeitos nulos na aprendizagem temporal. Também é possível que os animais comecem a cronometrar imediatamente, mesmo quando nenhuma resposta antecipatória é evidente no comportamento (Bálsamo et al., Drew de 2002 et al., 2005). Na verdade, as abordagens experimentais que avaliam a aprendizagem independentemente da resposta evocada por um CS revelaram um papel fundamental para o tempo na aprendizagem associativa (ver, Molet & # x00026 Miller, 2013).

Esses diferentes relatos teóricos pintam um quadro complicado das diferenças entre o condicionamento do medo traço e retardado. Em muitos experimentos, as diferenças entre grupos condicionados de medo de rastreamento e de atraso emergem rapidamente, geralmente após uma única tentativa. É possível para qualquer um dos relatos teóricos descritos acima (excitação enfraquecida, inibição reforçada e codificação temporal) explicar a diferença de retardo de rastreamento. Uma literatura emergente sobre a neurobiologia do condicionamento de traços de medo demonstra que essas diferenças de comportamento rapidamente desenvolvidas correspondem ao recrutamento de diferentes circuitos neurobiológicos, mesmo após uma única tentativa de condicionamento. Esta literatura sugere que a inserção de um intervalo de rastreamento resulta em diferenças imediatas no nível do sistema que podem lançar luz sobre os processos teóricos.


Capítulo 20 - O Modelo TD de Condicionamento Clássico: Topografia de Resposta e Implementação do Cérebro

Os procedimentos de condicionamento clássico instilam conhecimento sobre as relações temporais entre os estímulos condicionados, que são considerados sinais preditivos e gatilhos para a ação, e o estímulo não condicionado, o evento a ser cronometrado. Esse conhecimento é expresso nas características temporais da resposta condicionada, que normalmente se desenvolve de forma que sua amplitude de pico ocorre nos momentos em que o estímulo não condicionado é esperado. Uma rede conexionista simples baseada no Modelo Derivativo de Tempo de Sutton e Barto de Reforço Pavloviano fornece um mecanismo que pode explicar e simular virtualmente todos os aspectos conhecidos do tempo de resposta condicionado em uma variedade de protocolos, incluindo atraso e condicionamento de traço e condicionamento sob incerteza temporal. A rede é expressa em termos de equações que operam em tempo real de acordo com as regras de aprendizagem competitiva da Hebbian. O desdobramento do tempo a partir do início e deslocamento de eventos, como estímulos condicionados, é representado pela propagação da atividade ao longo de linhas de retardo. As entradas de estímulos condicionados para a unidade de processamento surgem de toques colaterais de cada elemento sequencial dessas linhas de atraso. O modelo pode ser alinhado com circuitos anatômicos do cerebelo e tronco encefálico que são essenciais para o aprendizado e desempenho das respostas condicionadas do piscar de olhos.


Tipos de condicionamento

O condicionamento é o processo pelo qual os animais aprendem seus padrões de comportamento, de acordo com a perspectiva de comportamentalismo (fundado por John B. Watson, 1913).

Esta abordagem acredita que apenas evidências quantificáveis ​​obtidas por meio de observação direta podem ser usadas para apoiar teorias psicológicas.Os estudos tendem a usar animais não humanos e as conclusões são generalizadas para os humanos.

Ivan Pavlov descobriu o conceito de condicionamento clássico enquanto investigava o reflexo de salivação dos cães. Ele observou que os cães salivavam em resposta a estímulos associados à comida (por exemplo, a tigela), bem como à própria comida. Isso o levou a projetar seu experimento envolvendo o emparelhamento de um sino com a comida para produzir uma resposta de salivação ao sino sozinho (Pavlov, 1927).

Aqui está um esboço do experimento de Pavlov:

Estímulo: Resposta:
Antes do condicionamento Alimentos (estímulo não condicionado, UCS). Salivação (resposta não condicionada, UCR).
Antes do condicionamento Bell (estímulo neutro, NS). Nenhum.
Durante o condicionamento Bell (estímulo condicionado, NS) + Comida (estímulo não condicionado, UCS). Salivação (resposta não condicionada, UCR).
Depois do condicionamento Bell (estímulo condicionado, CS). Salivação (resposta condicionada, CR).

Uma gama de recursos está associada ao condicionamento clássico. Isso inclui o tempo dos estímulos:

  1. Condicionamento avançado: Ocorre quando o estímulo neutro (NS) aparece imediatamente antes e durante a apresentação do estímulo não condicionado (UCS).
  2. Condicionamento atrasado: Envolve um atraso entre a apresentação do NS e a chegada do UCS.
  3. Condicionamento do traço: Baseia-se na memória do animal - é quando a apresentação do NS cessa antes da chegada do UCS.
  4. Condicionamento reverso: Envolve a apresentação do NS após a UCS e geralmente resulta em nenhum aprendizado!

A eficácia da aprendizagem associada a esses tempos segue a 'Lei da contiguidade' - os estímulos precisam ocorrer juntos no tempo para serem associados.

Aqui está um resumo dos tempos de condicionamento:

Outras características do condicionamento clássico são descritas na tabela abaixo:

Prazo: Recurso:
Extinção O CS não prevê mais a chegada do UCS, então o CR está perdido.
Generalização de estímulos Um estímulo semelhante ao CS (por exemplo, um sino de um tom mais alto) produz um CR.
Recuperação espontânea Um CR previamente extinto reaparece na apresentação do CS.
Discriminação de estímulos Um estímulo significativamente diferente do CS (por exemplo, um sino de um tom muito mais alto) não produz um CR.
Condicionamento de ordem superior Um NS é emparelhado com um CS, resultando em um novo CS que induz o CR.

Há evidências de que o condicionamento clássico pode explicar como alguns comportamentos humanos são aprendidos.

O caso de 'Little Albert' é um exemplo de um menino aprendendo a temer ratos brancos com uma generalização de estímulo significativa para incluir algodão e uma máscara do Pai Natal! (Watson e amp Rayner, 1920) Isso foi conseguido através do emparelhamento do rato com um UCS (neste caso, um grande estrondo).

A teoria da preparação biológica (Seligman, 1970) explica por que uma resposta de medo a cobras pode ser condicionada mais facilmente do que a carros.

Por exemplo: Afirma que o processo de evolução predispôs os organismos a aprender prontamente a ter medo de coisas que poderiam ter causado danos aos nossos ancestrais (daí as cobras e não os carros, embora os carros sejam muito mais perigosos).

Embora o condicionamento possa explicar o aumento das fobias, não está claro até que ponto ele pode explicar o aprendizado de padrões de comportamento humano mais complexos. As evidências sugerem que uma forma de aprendizagem baseada na linguagem mais sofisticada está disponível para os humanos (Dugdale & amp Lowe, 1990).

Condicionamento operante

Condicionamento operante: Isso foi descrito pela primeira vez por Torndike's (1898) 'Lei do efeito' - um comportamento que resulta em um resultado agradável tende a se repetir, ao passo que os comportamentos seguidos de consequências ruins não o são.

Isso aconteceu após uma série de estudos envolvendo gatos famintos aprendendo a escapar de caixas de quebra-cabeça e, assim, obtendo a recompensa de um pouco de comida. Ao longo de sucessivas tentativas, os gatos foram ficando cada vez mais rápidos em escapar das caixas.

Essa expressão de condicionamento operante foi refinada por Skinner, que realizou experimentos usando um tipo diferente de caixa. Isso é conhecido como caixa de Skinner.

O animal dentro da caixa teve que realizar algum tipo de comportamento ou operante (pressão de alavanca para ratos e bicadas de disco para pombos) resultando em uma consequência - positiva ou negativa reforço ou punição. De acordo com Skinner, essas consequências moldam e mantêm os comportamentos (Skinner, 1938).

Você consegue se lembrar das consequências dos comportamentos e seus efeitos?

Arraste a consequência correta (rosa) para o texto azul e marque sua resposta:

  1. Reforçadores positivos (por exemplo, comida).
  2. Reforçadores negativos (por exemplo, choque elétrico).
  3. Punidores (por exemplo, choque elétrico).

No mundo real, nem todos os reforçadores são reforçadores em si mesmos.

Aqueles que estão se reforçando, chamamos reforçadores primários, por exemplo, água, comida e sexo. Esses são reforçadores naturais, que resultam no fortalecimento dos comportamentos que os conduzem.

Reforçadores secundários só fortalecemos os comportamentos porque o animal aprendeu que eles são reforçadores, por exemplo, aprendemos que o dinheiro leva a consequências positivas.

A previsibilidade do reforço também influencia o comportamento dos animais. Diferente horários de reforço, que variam a regularidade dos reforços, podem ser aplicados e uma avaliação dos padrões e taxas de respostas consequentes pode ser feita.

Parece que um contínuo cronograma, quando cada resposta é reforçada, é bom para aprender novas respostas, mas um parcial cronograma seria melhor para manter o comportamento e evitar a extinção.

Até agora, vimos os mecanismos de condicionamento operante, mas como eles levam à aprendizagem de novos comportamentos?

Modelagem: O animal aprende um novo comportamento pelo reforço de respostas que estão um passo mais perto do comportamento desejado. Este é o método usado para treinar animais. Uma forma de modelagem é usada para ensinar pessoas com dificuldades de aprendizagem a realizar tarefas por si mesmas, por exemplo, alimentar-se, usar o banheiro, por exemplo. Isso é chamado modificação de comportamento.

Reforço negativo: Pode ser usado para escapar ou evitar um estímulo desagradável.

As punições só podem enfraquecer os comportamentos existentes, portanto, não levam ao aprendizado de novos. Embora eles possam ser usados ​​para suprimir comportamentos indesejáveis ​​enquanto novos estão sendo reforçados.

Teste a sua compreensão do condicionamento operante, identificando se o reforço ou punição positivo ou negativo está sendo usado em cada exemplo:


Incerteza na ocorrência de recompensa: rampa DA

Fiorillo et al. [15] associaram a apresentação de cinco estímulos visuais diferentes aos macacos com o atraso, probabilístico (p r= 0, 0,25, 0,5, 0,75, 1) entrega de recompensas de suco. Eles usaram um paradigma de condicionamento de retardo, no qual o estímulo persiste por um intervalo fixo de 2s, com recompensa sendo entregue quando o estímulo desaparece. Após o treinamento, o comportamento de lamber antecipação dos macacos indicou que eles estavam cientes das diferentes probabilidades de recompensa associadas a cada estímulo.

A Figura 1a mostra histogramas de população de atividade celular DA extracelularmente registrada, para cada p r. A teoria TD prevê que a ativação fásica das células DA no momento dos estímulos visuais deve corresponder ao média recompensa esperada e, portanto, deve aumentar com p r. A Figura 1a mostra exatamente isso - de fato, em toda a população, o aumento é bastante linear. Morris et al. [16] relatam um resultado semelhante em uma tarefa de condicionamento instrumental (traço) também envolvendo reforço probabilístico.

Erros médios de predição em uma tarefa de recompensa probabilística (a) Resposta DA em tentativas com diferentes probabilidades de recompensa. Os histogramas de tempo de peri-estímulo da população (PSTHs) mostram a atividade de pico somada de vários neurônios DA ao longo de muitas tentativas, para cada p r, agrupados em testes recompensados ​​e não recompensados ​​em probabilidades intermediárias. (b) Erro de previsão TD com escala assimétrica. Na tarefa simulada, em cada tentativa, um dos cinco estímulos foi escolhido aleatoriamente e exibido por vez t = 5. O estímulo foi desligado em t = 25, momento em que uma recompensa foi dada com uma probabilidade de p respecificado pelo estímulo. Usamos uma representação de linha de retardo tocada dos estímulos (ver texto), com cada estímulo representado por um conjunto diferente de unidades ('neurônios'). O erro TD foi δ(t) = r(t) + C(t - 1)·x(t) - C(t - 1)·x(t - 1), com r(t) a recompensa no momento t, e x(t) e C(t) os vetores de estado e peso para a unidade. Uma regra de aprendizagem TD online padrão foi usada com uma taxa de aprendizagem fixa α, C(t) = C(t - 1) + αδ(t)x(t - 1), então cada peso representava um valor de recompensa futuro esperado. Semelhante a Fiorillo et al., nós descrevemos o erro de previsão δ(t) calculada a média de muitas tentativas, depois que a tarefa foi aprendida. A assimetria representacional surge como valores negativos de δ(t) foram dimensionados por d = 1/6 antes da soma do PSTH simulado, embora a aprendizagem prossiga de acordo com erros fora de escala. Finalmente, para dar conta das pequenas respostas positivas no momento do estímulo para p r= 0 e no momento da recompensa (prevista) para p r= 1 visto em (a), presumimos uma chance pequena (8%) de que um estímulo preditivo seja identificado incorretamente. (c) resposta DA em p r= 0,5 tentativas, separadas em tentativas premiadas (esquerda) e não recompensadas (direita). (d) Modelo TD de (c). (a, c) Reimpresso com permissão de [15] © 2003 AAAS. A permissão do AAAS é necessária para todos os outros usos.

Por outro lado, no momento da entrega potencial da recompensa, a teoria TD prevê que na média não deve haver atividade, pois, em média, não há erro de previsão naquele momento. Claro, no projeto de reforço probabilístico (pelo menos para p r≠ 0, 1) há de fato um erro de previsão no momento da entrega ou não entrega da recompensa em cada tentativa. Nas tentativas em que uma recompensa é entregue, o erro de previsão deve ser positivo (já que a recompensa obtida é maior do que a recompensa média esperada). Por outro lado, em testes sem recompensa, deve ser negativo (consulte a Figura 1c). Crucialmente, no TD, a média dessas diferenças, ponderada por suas probabilidades de ocorrência, deve ser zero. Se não for zero, então esse erro de predição deve atuar como um sinal de plasticidade, mudando as predições até que não haja nenhum erro de predição. Em desacordo com essa expectativa, os dados na Figura 1a, que são calculados em média sobre os testes recompensados ​​e não recompensados, mostram que há de fato uma atividade média positiva neste momento. Isso também fica evidente nos dados de Morris et al. [16] (ver Figura 3c). As respostas positivas de DA não mostram sinais de desaparecimento, mesmo com treinamento substancial (ao longo dos meses).

Pior do que isso para o modelo TD e, de fato, o foco de Fiorillo et al. [15], é o aparente rampa da atividade DA em relação ao tempo esperado da recompensa. Como a magnitude da rampa é maior para p r= 0,5, Fiorillo et al. sugeriu que relata o incerteza na entrega de recompensa, ao invés de um erro de previsão e especulou que este sinal poderia explicar as propriedades aparentemente apetitivas da incerteza (como visto no jogo).

Tanto a atividade em rampa quanto a atividade no tempo esperado de recompensa representam desafios críticos para a teoria TD. A aprendizagem TD opera organizando para a atividade DA em um momento em um teste para ser previsto por pistas disponíveis anteriormente nesse julgamento. Assim, não está claro como qualquer atividade aparentemente previsível, seja no momento da recompensa ou na rampa anterior, pode persistir sem ser prevista pelo início do estímulo visual. Afinal, o p rA atividade dependente em resposta ao estímulo confirma seu status como um preditor válido. Além disso, um aspecto-chave do TD [17], é que ele acopla a previsão à escolha da ação usando o valor de um estado como uma indicação das recompensas futuras disponíveis desse estado e, portanto, sua atratividade como um alvo para a ação. A partir dessa perspectiva, uma vez que a atividade em rampa não é explicitamente prevista pela sugestão anterior, ela não pode influenciar as ações iniciais, como a decisão de jogar. Por exemplo, considere uma competição entre duas ações: uma eventualmente levando a um estado com uma recompensa determinística e, portanto, sem rampa, e a outra levando a um estado seguido por uma recompensa probabilística com a mesma média e uma rampa. Como a rampa não afeta a atividade no momento do estímulo condicionado, ela não pode ser usada para avaliar ou favorecer a segunda ação (jogo) em relação à primeira, apesar da incerteza extra.

Sugerimos a hipótese alternativa de que ambos esses padrões de disparo anômalo resultam diretamente das restrições implícitas pela baixa taxa de atividade de linha de base dos neurônios DA (2-4 Hz) na codificação do assinado erro de previsão. Conforme observado por Fiorillo et al. [15], erros de predição positiva são representados por taxas de disparo de

270% acima de linha de base, enquanto os erros negativos são representados por uma diminuição de apenas

55% abaixo linha de base (ver também [14, 18]). Essa assimetria é uma consequência direta da codificação de uma quantidade assinada por meio de disparos que tem uma linha de base baixa, embora, obviamente, só possa ser positiva. As taxas de disparo acima da linha de base podem codificar erros de predição positiva usando uma grande faixa dinâmica, no entanto, as taxas de disparo abaixo da linha de base só podem cair a zero, impondo uma restrição na codificação de erros de previsão negativa.

Consequentemente, deve-se ter cuidado ao interpretar as somas (ou médias) dos histogramas de tempo de peri-estímulo (PSTHs) de atividade em diferentes tentativas, como foi feito na Figura 1a. Os sinais de erro positivo e negativo codificados assimetricamente no momento do recebimento ou não recebimento da recompensa devem de fato não somam zero, mesmo que representem erros de previsão de TD corretos. Quando somados, o disparo baixo que representa os erros negativos nas tentativas não recompensadas não "cancelará" os erros positivos de codificação de disparo rápido nas tentativas premiadas e, em geral, a média mostrará uma resposta positiva. No cérebro, é claro, como as respostas não são calculadas em média sobre os testes (recompensados ​​e não recompensados), mas sobre os neurônios em um teste, isso não precisa representar um problema.

Isso explica a atividade positiva persistente (em média) no momento da entrega ou não entrega da recompensa. Mas e a rampa anterior a essa época? Pelo menos em certas representações neurais do tempo entre o estímulo e a recompensa, quando as tentativas são calculadas, essa mesma assimetria leva o DT a resultar exatamente em uma aceleração da atividade em direção ao tempo da recompensa. O mecanismo de aprendizagem TD tem o efeito de propagar, em uma base de ensaio a ensaio, erros de predição que surgem em um momento em um ensaio (como no momento da recompensa) para preditores potenciais (como o CS) que surgem em momentos anteriores dentro de cada tentativa. Sob a representação assimétrica de erros de predição positivos e negativos que acabamos de discutir, calcular a média desses erros de propagação em várias tentativas (como na Figura 1a) levará a médias positivas para períodos dentro de uma tentativa antes de uma recompensa. A forma precisa da rampa de atividade resultante depende da forma como os estímulos são representados ao longo do tempo, bem como da velocidade de aprendizagem, como será discutido a seguir.

A Figura 2 ilustra esta visão da proveniência da atividade de rampa. Aqui, uma representação de linha de retardo tocada do tempo desde que o estímulo é usado. Para isso, cada unidade ('neurônio') torna-se ativa (ou seja, assume o valor 1) em um certo atraso após o estímulo ter sido apresentado, de modo que cada intervalo de tempo após o início do estímulo seja consistentemente representado pelo disparo de uma unidade. A aprendizagem é baseada no erro TD (relatado dopaminergicamente), formalizado como δ(t) = r(t) + V(t) - V(t - 1), com V(t) a entrada ponderada da unidade ativa no momento t, e r(t) a recompensa obtida no momento t. Atualizar os pesos das unidades de acordo com a regra de atualização TD padrão com uma taxa de aprendizagem fixa, permite V(t) para, em média, representar as recompensas futuras esperadas (consulte a legenda da Figura 1). Como cada etapa de tempo subsequente é representada separadamente, erros de previsão TD podem surgir a qualquer momento durante a tentativa. A Figura 2a mostra esses erros em seis tentativas simuladas consecutivas nas quais p r= 0,5. Em cada tentativa, um novo erro positivo ou negativo surge no momento da recompensa, conseqüente ao recebimento ou não da recompensa, e passo a passo os erros das tentativas anteriores se propagam até o momento do estímulo, através a atualização constante dos pesos (por exemplo. o erro destacado em vermelho). Ao calcular a média (ou, como em PSTHs, somar) durante as tentativas, esses erros se cancelam em média, resultando em um histograma plano geral no intervalo após o início do estímulo e levando até o momento da recompensa (linha preta na Figura 2b, somados aos 10 testes mostrados em azul fino). No entanto, quando somados após escala assimétrica dos erros negativos por um fator de d = 1/6 (que simula a codificação assimétrica de erros de predição positivos e negativos por neurônios DA), segue-se uma rampa positiva de atividade, conforme ilustrado pela linha preta na Figura 2c. Observe que esse reescalonamento é apenas um representativo problema, resultante das restrições de codificação de um valor negativo sobre uma baixa taxa de disparo de linha de base, e não deve afetar o aprendizado dos pesos, de modo a não aprender valores errados (ver discussão). No entanto, como os PSTHs são somas diretas de picos neuronais, esse problema representacional está relacionado ao histograma resultante.

A retropropagação de erros de predição explica a atividade de rampa. (a) O erro de predição TD em cada uma das seis tentativas consecutivas (de cima para baixo) da simulação na Figura 1b, com p r= 0,5. Destacado em vermelho está o erro no momento da recompensa na primeira das tentativas e sua retropropagação gradual em direção ao momento do estímulo nas tentativas subsequentes. As letras em bloco indicam o resultado de cada ensaio específico (R = recompensado N = não recompensado). A sequência de recompensas que precede essas tentativas é fornecida no canto superior direito. (b) O erro TD dessas seis tentativas, e mais quatro depois delas, sobreposto. As linhas vermelha e verde ilustram o envelope dos erros nessas tentativas.A soma desses ensaios resulta em nenhuma atividade acima da linha de base em média (linha preta), pois erros positivos e negativos ocorrem aleatoriamente em 50% do tempo e, portanto, se cancelam. (c) No entanto, quando os erros de previsão são assimetricamente representados acima e abaixo da taxa de disparo de linha de base (aqui os erros negativos foram escalonados de forma assimétrica por d = 1/6 para simular a codificação assimétrica de erros de predição por neurônios DA), uma subida média de atividade emerge ao calcular a média sobre as tentativas, como é ilustrado pela linha preta. Todos os parâmetros de simulação são iguais aos da Figura 1b, d.

As Figuras 1b, d mostram a rampa decorrente desta combinação de codificação assimétrica e média inter-ensaio, para comparação com os dados experimentais. A Figura 1b mostra o PSTH calculado a partir de nossos dados simulados pela média sobre o representado assimetricamente δ(t) sinalizar

50 tentativas para cada tipo de estímulo. A Figura 1d mostra os resultados para o p r= 0,5 caso, dividido em ensaios recompensados ​​e não recompensados ​​para comparação com a Figura 1c. Os resultados simulados se assemelham aos dados experimentais no sentido de que eles replicam a resposta positiva líquida às recompensas incertas, bem como o efeito de rampa, que é mais alto no p r= 0,5 caso.

É simples derivar a resposta média no momento da recompensa (t = N) em teste T, ou seja, o erro médio de TD δ T(N), a partir da regra de aprendizagem TD com a representação simplificada do tempo da linha de atraso derivada e uma taxa de aprendizagem fixa α. O valor no penúltimo passo de tempo em uma tentativa, como uma função do número da tentativa (com os valores iniciais considerados zero), é

Onde r(t) é a recompensa no final do julgamento t. O sinal de erro na última etapa da tentativa T é simplesmente a diferença entre a recompensa obtida r(T), e o valor que prevê essa recompensa VT - 1(N - 1). Este erro é positivo com probabilidade p r, e negativo com probabilidade (1 - p r) Escalonando os erros negativos por um fator de d ∈ (0, 1], assim obtemos

Para codificação simétrica de erros positivos e negativos (d = 1), a resposta média é 0. Para codificação assimétrica (0 & ltd & lt 1), a resposta média é de fato proporcional à variância das recompensas e, portanto, máxima em p r= 0,5. Contudo, δ Té positivo e, concomitantemente, as rampas são positivas e, neste cenário específico, estão relacionadas à incerteza, por causa de, ao invés de ao invés de, a codificação de δ(t).

Na verdade, há uma diferença fundamental entre a incerteza e as contas de TD da atividade em rampa. De acordo com o primeiro, a rampa é um fenômeno dentro do ensaio, codificando a incerteza na recompensa, ao contrário, o último sugere que as rampas surgem apenas por meio do cálculo da média em vários ensaios. Dentro de um ensaio, ao calcular a média de neurônios registrados simultaneamente em vez de ensaios, os traços não devem mostrar uma rampa suave, mas uma atividade positiva e negativa intermitente correspondente a erros de predição de retropropagação dos ensaios imediatamente anteriores (como na Figura 2a).


Os componentes do condicionamento clássico

Podemos dividir o condicionamento clássico em quatro componentes principais. Esses componentes são os estímulos não condicionados e condicionados e a resposta condicionada e não condicionada. Se entendermos as relações entre esses componentes, seremos capazes de entender melhor o condicionamento clássico.

Agora vamos explicar brevemente cada um desses componentes e a relação entre eles:

  • Estímulo não condicionado: Isto é o estímulo que já é significativo e significativo o suficiente para o sujeito. Com isso, queremos dizer que é um estímulo capaz de provocar uma resposta por conta própria. No experimento de Pavlov, o estímulo não condicionado era a comida.
  • Resposta não condicionada: Esta é a resposta do sujeito na presença do estímulo não condicionado. No caso do experimento mencionado, a resposta não condicionada foi a salivação quando os cães viram a comida.
  • Estímulo condicionado: Este é o estímulo inicialmente neutro que não gera nenhuma resposta significativa no sujeito por conta própria. No entanto, por meio da associação com o estímulo não condicionado, é capaz de provocar uma nova resposta. No caso do experimento de Pavlov, esse estímulo foi o som do sino.
  • Resposta condicionada: Isto é o resposta após a introdução do estímulo condicionado. No caso desta experiência, eram os cães salivando ao ouvir o som do sino.

Aprendizagem humana

O condicionamento clássico consiste na interação desses componentes. Apresentar um estímulo neutro junto com um estímulo não condicionado em muitas ocasiões irá transformar o estímulo neutro em um estímulo condicionado. Por essa razão, o estímulo condicionado dará uma resposta condicionada semelhante à resposta não condicionada. Desse modo, um novo processo de aprendizagem surgiu em resposta à associação de dois estímulos diferentes.

Todas as pesquisas que surgiram do condicionamento clássico ajudou-nos a compreender muitos aspectos da aprendizagem humana. Graças a isso, podemos antecipar fobias e também vincular emoções a novos estímulos.

Pavlov acendeu a faísca que nos permitiu entender muito do que sabemos hoje sobre aprendizado e condicionamento.


SARSA: Controle de Diferenciação Temporal

Agora é hora de estender o método TD para o caso de controle. Aqui estamos nós no ativo cenário, queremos estimar a política ótima começando de um aleatório. Vimos na introdução que a regra de atualização final para o caso TD (0) foi:

[Nós_) leftarrow U (s_) + alpha big [ text_ + gamma U (s_) - Nós_) grande]]

A regra de atualização é baseada na tupla Estado-Recompensa-Estado. Nós estamos no caso de controle e nós usamos o Função Q (veja o segundo post) para estimar a melhor política. A função Q requer como entrada um par de ação de estado. O algoritmo TD para controle é direto, dê uma olhada na regra de atualização:

[Q (s_, uma_) leftarrow Q (s_, uma_) + alpha big [ text_ + gama Q (s_, uma_) - Q (s_, uma_) grande]]

É isso, simplesmente substituímos (U ) por (Q ), mas devemos ter cuidado porque há uma diferença. Agora precisamos de um novo valor que é a ação em t + 1. Isso não é um problema porque está contido na matriz Q. No Controle TD a estimativa é baseada na tupla Estado-ação-recompensa-estado-ação e esta tupla dá o nome ao algoritmo: SARSA. A SARSA foi introduzida em 1994 por Rummery e Niranjan no artigo “Q-Learning On-Line Usando Sistemas Connectionist” e foi originalmente chamada Q-learning modificado. Em 1996, Sutton introduziu o nome atual.

Para obter a intuição por trás do algoritmo, consideramos novamente um único episódio de um agente se movendo em um mundo. O robô começa em (s_ <0> ) e após sete visitas ele atinge um estado terminal em (s_ <5> ). Para cada estado, temos uma ação associada. Avançando, o algoritmo leva em consideração apenas o estado em t e t + 1. Na implementação padrão da SARSA, o estados anteriores são ignorados, conforme mostrado pela sombra em cima deles na ilustração gráfica. Isso está de acordo com a estrutura do TD, conforme explicado na seção TD (0). Agora eu gostaria de resumir todos os etapas do algoritmo:

  1. Mova uma etapa selecionando (a_) de ( pi (s_))
  2. Observe: (r_), (s_), (uma_)
  3. Atualize a função de ação de estado (Q (s_, uma_))
  4. Atualize a política ( pi (s_) leftarrow underset < text > Q (s_,uma_))

No passo 1 o agente seleciona uma ação da política e avança um passo. No passo 2 o agente observa a recompensa, o novo estado e a ação associada. No etapa 3 o algoritmo atualiza a função de ação de estado usando a regra de atualização. No Passo 4 estamos usando o mesmo mecanismo de MC para controle (veja a segunda postagem), o política ( pi ) é atualizada a cada visita escolhendo a ação com o maior valor de ação de estado. Estamos fazendo a política ambicioso. Quanto aos métodos de MC, usamos a condição de início de exploração.

Podemos aplicar as idéias TD (λ) ao SARSA? Sim, nós podemos. SARSA (λ) segue as mesmas etapas do TD (λ) implementando o rastreios de elegibilidade para acelerar a convergência. A intuição por trás do algoritmo é a mesma, mas em vez de aplicar o método de previsão aos estados, o SARSA (λ) o aplica aos pares estado-ação. Temos um rastreamento para cada ação de estado e esse rastreamento é atualizado da seguinte forma:

Para atualizar a função Q, usamos a seguinte regra de atualização:

[Q_(s, a) = Q_(s, a) + alpha delta_ e_(s, a) qquad text s em S ]

Considerando que neste post apresentei muitos conceitos novos, não irei prosseguir com a implementação do SARSA em Python (λ). Considere isso um dever de casa e tente implementá-lo sozinho. Se o que foi explicado nas seções anteriores não for suficiente, você pode ler o capítulo 7.5 do livro de Sutton e Barto.


Aprendizagem de diferença temporal

Aprendizagem de diferença temporal (TD) é uma abordagem para aprender como prever uma quantidade que depende dos valores futuros de um determinado sinal. O nome TD deriva de seu uso de mudanças, ou diferenças, em previsões ao longo de etapas de tempo sucessivas para conduzir o processo de aprendizagem. A previsão em qualquer etapa de tempo é atualizada para aproximá-la da previsão da mesma quantidade na próxima etapa de tempo. É um processo de aprendizagem supervisionado em que o sinal de treinamento para uma previsão é uma previsão futura. Os algoritmos TD são freqüentemente usados ​​no aprendizado por reforço para prever uma medida da quantidade total de recompensa esperada para o futuro, mas também podem ser usados ​​para prever outras quantidades. Algoritmos TD de tempo contínuo também foram desenvolvidos.


Atraso de um único sinal e traço de condicionamento clássico na esquizofrenia

Fundo: O condicionamento clássico fornece um meio de abordar os mecanismos de aprendizagem e pode, portanto, ajudar a compreender a fisiopatologia da alteração da memória na esquizofrenia.

Métodos: Single cue delay e traço de condicionamento de piscar de olhos foram usados ​​em pacientes com esquizofrenia e controles normais pareados para explorar, respectivamente, integridade cerebelar e hipocampal durante o aprendizado. Medimos a porcentagem de respostas condicionadas (CRs) e não condicionadas (URs), sua amplitude e latências de início e pico. Também contabilizamos as taxas de piscadas espontâneas e as respostas induzidas por estímulos antes de aprender.

Resultados: Durante o condicionamento de retardo, os pacientes apresentaram CRs com latências de início e pico mais longas e eficiência melhorada em comparação com voluntários normais, sem haver diferenças entre os pacientes e os controles normais na porcentagem de CRs. Durante o condicionamento de traços, nenhum dos grupos mostrou um aumento nos CRs como uma função de emparelhamentos de estímulo condicionado-estímulo não condicionado, em parte porque o nível de taxas de piscar espontâneas excedeu o nível de CRs, no entanto, os pacientes com esquizofrenia mostraram aumento de resposta 150-400 ms após o estímulo condicionado e nos últimos 100-150 mseg antes do estímulo não condicionado, enquanto os controles normais mostraram apenas o último tipo de resposta. O primeiro tipo de resposta foi mais frequente em pacientes com esquizofrenia, mesmo antes de qualquer rastreamento ou condicionamento tardio.

Conclusões: Esses resultados sugerem integridade dos mecanismos cerebelares subjacentes ao condicionamento, embora o tempo alterado de CRs em pacientes possa indicar diferenças na modulação de tais respostas. Tanto a maior latência de início de CR durante o retardo quanto a presença de respostas não adaptativas iniciais durante o rastreamento são compatíveis com o padrão de resposta visto em animais com danos no hipocampo.


Tipos de condicionamento

O condicionamento é o processo pelo qual os animais aprendem seus padrões de comportamento, de acordo com a perspectiva de comportamentalismo (fundado por John B. Watson, 1913).

Esta abordagem acredita que apenas evidências quantificáveis ​​obtidas por meio de observação direta podem ser usadas para apoiar teorias psicológicas. Os estudos tendem a usar animais não humanos e as conclusões são generalizadas para os humanos.

Ivan Pavlov descobriu o conceito de condicionamento clássico enquanto investigava o reflexo de salivação dos cães. Ele observou que os cães salivavam em resposta a estímulos associados à comida (por exemplo, a tigela), bem como à própria comida. Isso o levou a projetar seu experimento envolvendo o emparelhamento de um sino com a comida para produzir uma resposta de salivação ao sino sozinho (Pavlov, 1927).

Aqui está um esboço do experimento de Pavlov:

Estímulo: Resposta:
Antes do condicionamento Alimentos (estímulo não condicionado, UCS). Salivação (resposta não condicionada, UCR).
Antes do condicionamento Bell (estímulo neutro, NS). Nenhum.
Durante o condicionamento Bell (estímulo condicionado, NS) + Comida (estímulo não condicionado, UCS). Salivação (resposta não condicionada, UCR).
Depois do condicionamento Bell (estímulo condicionado, CS). Salivação (resposta condicionada, CR).

Uma gama de recursos está associada ao condicionamento clássico. Isso inclui o tempo dos estímulos:

  1. Condicionamento avançado: Ocorre quando o estímulo neutro (NS) aparece imediatamente antes e durante a apresentação do estímulo não condicionado (UCS).
  2. Condicionamento atrasado: Envolve um atraso entre a apresentação do NS e a chegada do UCS.
  3. Condicionamento do traço: Baseia-se na memória do animal - é quando a apresentação do NS cessa antes da chegada do UCS.
  4. Condicionamento reverso: Envolve a apresentação do NS após a UCS e geralmente resulta em nenhum aprendizado!

A eficácia da aprendizagem associada a esses tempos segue a 'Lei da contiguidade' - os estímulos precisam ocorrer juntos no tempo para serem associados.

Aqui está um resumo dos tempos de condicionamento:

Outras características do condicionamento clássico são descritas na tabela abaixo:

Prazo: Recurso:
Extinção O CS não prevê mais a chegada do UCS, então o CR está perdido.
Generalização de estímulos Um estímulo semelhante ao CS (por exemplo, um sino de um tom mais alto) produz um CR.
Recuperação espontânea Um CR previamente extinto reaparece na apresentação do CS.
Discriminação de estímulos Um estímulo significativamente diferente do CS (por exemplo, um sino de um tom muito mais alto) não produz um CR.
Condicionamento de ordem superior Um NS é emparelhado com um CS, resultando em um novo CS que induz o CR.

Há evidências de que o condicionamento clássico pode explicar como alguns comportamentos humanos são aprendidos.

O caso de 'Little Albert' é um exemplo de um menino aprendendo a temer ratos brancos com uma generalização de estímulo significativa para incluir algodão e uma máscara do Pai Natal! (Watson e amp Rayner, 1920) Isso foi conseguido através do emparelhamento do rato com um UCS (neste caso, um grande estrondo).

A teoria da preparação biológica (Seligman, 1970) explica por que uma resposta de medo a cobras pode ser condicionada mais facilmente do que a carros.

Por exemplo: Afirma que o processo de evolução predispôs os organismos a aprender prontamente a ter medo de coisas que poderiam ter causado danos aos nossos ancestrais (daí as cobras e não os carros, embora os carros sejam muito mais perigosos).

Embora o condicionamento possa explicar o aumento das fobias, não está claro até que ponto ele pode explicar o aprendizado de padrões de comportamento humano mais complexos. As evidências sugerem que uma forma de aprendizagem baseada na linguagem mais sofisticada está disponível para os humanos (Dugdale & amp Lowe, 1990).

Condicionamento operante

Condicionamento operante: Isso foi descrito pela primeira vez por Torndike's (1898) 'Lei do efeito' - um comportamento que resulta em um resultado agradável tende a se repetir, ao passo que os comportamentos seguidos de consequências ruins não o são.

Isso aconteceu após uma série de estudos envolvendo gatos famintos aprendendo a escapar de caixas de quebra-cabeça e, assim, obtendo a recompensa de um pouco de comida. Ao longo de sucessivas tentativas, os gatos foram ficando cada vez mais rápidos em escapar das caixas.

Essa expressão de condicionamento operante foi refinada por Skinner, que realizou experimentos usando um tipo diferente de caixa. Isso é conhecido como caixa de Skinner.

O animal dentro da caixa teve que realizar algum tipo de comportamento ou operante (pressão de alavanca para ratos e bicadas de disco para pombos) resultando em uma consequência - positiva ou negativa reforço ou punição. De acordo com Skinner, essas consequências moldam e mantêm os comportamentos (Skinner, 1938).

Você consegue se lembrar das consequências dos comportamentos e seus efeitos?

Arraste a consequência correta (rosa) para o texto azul e marque sua resposta:

  1. Reforçadores positivos (por exemplo, comida).
  2. Reforçadores negativos (por exemplo, choque elétrico).
  3. Punidores (por exemplo, choque elétrico).

No mundo real, nem todos os reforçadores são reforçadores em si mesmos.

Aqueles que estão se reforçando, chamamos reforçadores primários, por exemplo, água, comida e sexo. Esses são reforçadores naturais, que resultam no fortalecimento dos comportamentos que os conduzem.

Reforçadores secundários só fortalecemos os comportamentos porque o animal aprendeu que eles são reforçadores, por exemplo, aprendemos que o dinheiro leva a consequências positivas.

A previsibilidade do reforço também influencia o comportamento dos animais. Diferente horários de reforço, que variam a regularidade dos reforços, podem ser aplicados e uma avaliação dos padrões e taxas de respostas consequentes pode ser feita.

Parece que um contínuo cronograma, quando cada resposta é reforçada, é bom para aprender novas respostas, mas um parcial cronograma seria melhor para manter o comportamento e evitar a extinção.

Até agora, vimos os mecanismos de condicionamento operante, mas como eles levam à aprendizagem de novos comportamentos?

Modelagem: O animal aprende um novo comportamento pelo reforço de respostas que estão um passo mais perto do comportamento desejado. Este é o método usado para treinar animais. Uma forma de modelagem é usada para ensinar pessoas com dificuldades de aprendizagem a realizar tarefas por si mesmas, por exemplo, alimentar-se, usar o banheiro, por exemplo. Isso é chamado modificação de comportamento.

Reforço negativo: Pode ser usado para escapar ou evitar um estímulo desagradável.

As punições só podem enfraquecer os comportamentos existentes, portanto, não levam ao aprendizado de novos. Embora eles possam ser usados ​​para suprimir comportamentos indesejáveis ​​enquanto novos estão sendo reforçados.

Teste a sua compreensão do condicionamento operante, identificando se o reforço ou punição positivo ou negativo está sendo usado em cada exemplo:


Introdução

A diferença definidora entre o retardo e o condicionamento clássico de traço é simples: no condicionamento de retardo, o estímulo não condicionado (US) segue imediatamente ou co-termina com o estímulo condicionado (CS), enquanto no condicionamento de traço, o CS e o US são separados no tempo por um “ trace ”intervalo. Embora simples, essa diferença pode ter efeitos profundos no aprendizado. Primeiro, os sujeitos geralmente requerem mais tentativas para adquirir o condicionamento de traços do que o atraso (Pavlov, 1927 Beylin et al., 2001). Em segundo lugar, o condicionamento de traços requer um hipocampo intacto, enquanto o condicionamento de retardo não (Solomon et al., 1986 McEchron et al., 1998). Em um estudo, ratos lesionados não mostraram nenhuma evidência de condicionamento de piscar de olhos de traço de aprendizagem, mesmo após 1000 tentativas de treinamento (Beylin et al., 2001). No entanto, não se sabe por que o condicionamento de traços depende do hipocampo.

Como a presença de um intervalo de traço torna o CS e o US temporariamente descontínuo, foi proposto que o hipocampo é usado para superar a discontiguidade do estímulo (Wallenstein et al., 1998). Por exemplo, algumas teorias sustentam que o hipocampo é usado para manter um traço de memória do CS para que possa ser associado aos EUA mais tarde. Outra possibilidade é que o contexto de treinamento, que é contíguo tanto ao CS quanto ao US, atue como uma ponte entre os estímulos (Quinn et al., 2002). Isso explicaria o envolvimento do hipocampo no condicionamento de traços porque ratos com lesões no hipocampo mostram uma capacidade prejudicada de usar estímulos contextuais (Kim e Fanselow, 1992 Phillips e LeDoux, 1992 Anagnostaras et al., 2001).

Outras teorias não se baseiam na discontiguidade CS-US. Uma teoria sugere que o hipocampo é necessário para cronometrar as respostas condicionadas no condicionamento de piscar de olhos (Solomon et al., 1986 James et al., 1987). Outra teoria sugere que o condicionamento do traço pode ser mais difícil, e possivelmente dependente do hipocampo, porque os sujeitos devem discriminar o intervalo do traço do intervalo intertrial (Mowrer e Lamoreaux, 1951 Bolles et al., 1978 Kaplan e Hearst, 1982). Finalmente, algumas pesquisas sugerem que o condicionamento de traços depende de uma forma hipocampal de consciência (Clark e Squire, 1998, 2004).

Como várias teorias dependem da discontiguidade do estímulo e várias não, determinar a importância da contiguidade poderia reduzir o número de explicações viáveis. Para este fim, criamos um paradigma de "condicionamento de traço contíguo" (CTC) que é semelhante ao paradigma de condicionamento de medo de traço padrão (ou seja, um CS de ruído branco é separado de um choque de pé US por um intervalo de traço de 30 s). No entanto, no CTC, em vez de o US ser apresentado sozinho, ele é apresentado simultaneamente com um segundo CS (ver Fig. 2UMA) Como o condicionamento simultâneo resulta em pouca ou nenhuma resposta condicionada (Matzel et al., 1988), a adição de um componente simultâneo ao arranjo do traço adiciona contiguidade CS-US, sem aumentar a relação preditiva entre os estímulos. Se a discontiguidade do estímulo é a razão pela qual o condicionamento do traço é dependente do hipocampo, os animais com lesões no hipocampo devem ser capazes de aprender a associação CS-US após o treinamento com o procedimento CTC. No entanto, se o condicionamento do traço requer o hipocampo por outras razões, os ratos lesionados devem ser incapazes de adquirir a resposta condicionada durante o treinamento com o procedimento CTC.


Atraso de um único sinal e traço de condicionamento clássico na esquizofrenia

Fundo: O condicionamento clássico fornece um meio de abordar os mecanismos de aprendizagem e pode, portanto, ajudar a compreender a fisiopatologia da alteração da memória na esquizofrenia.

Métodos: Single cue delay e traço de condicionamento de piscar de olhos foram usados ​​em pacientes com esquizofrenia e controles normais pareados para explorar, respectivamente, integridade cerebelar e hipocampal durante o aprendizado. Medimos a porcentagem de respostas condicionadas (CRs) e não condicionadas (URs), sua amplitude e latências de início e pico. Também contabilizamos as taxas de piscadas espontâneas e as respostas induzidas por estímulos antes de aprender.

Resultados: Durante o condicionamento de retardo, os pacientes apresentaram CRs com latências de início e pico mais longas e eficiência melhorada em comparação com voluntários normais, sem haver diferenças entre os pacientes e os controles normais na porcentagem de CRs. Durante o condicionamento de traços, nenhum dos grupos mostrou um aumento nos CRs como uma função de emparelhamentos de estímulo condicionado-estímulo não condicionado, em parte porque o nível de taxas de piscar espontâneas excedeu o nível de CRs, no entanto, os pacientes com esquizofrenia mostraram aumento de resposta 150-400 ms após o estímulo condicionado e nos últimos 100-150 mseg antes do estímulo não condicionado, enquanto os controles normais mostraram apenas o último tipo de resposta. O primeiro tipo de resposta foi mais frequente em pacientes com esquizofrenia, mesmo antes de qualquer rastreamento ou condicionamento tardio.

Conclusões: Esses resultados sugerem integridade dos mecanismos cerebelares subjacentes ao condicionamento, embora o tempo alterado de CRs em pacientes possa indicar diferenças na modulação de tais respostas. Tanto a maior latência de início de CR durante o retardo quanto a presença de respostas não adaptativas iniciais durante o rastreamento são compatíveis com o padrão de resposta visto em animais com danos no hipocampo.


Capítulo 20 - O Modelo TD de Condicionamento Clássico: Topografia de Resposta e Implementação do Cérebro

Os procedimentos de condicionamento clássico instilam conhecimento sobre as relações temporais entre os estímulos condicionados, que são considerados sinais preditivos e gatilhos para a ação, e o estímulo não condicionado, o evento a ser cronometrado. Esse conhecimento é expresso nas características temporais da resposta condicionada, que normalmente se desenvolve de forma que sua amplitude de pico ocorre nos momentos em que o estímulo não condicionado é esperado. Uma rede conexionista simples baseada no Modelo Derivativo de Tempo de Sutton e Barto de Reforço Pavloviano fornece um mecanismo que pode explicar e simular virtualmente todos os aspectos conhecidos do tempo de resposta condicionado em uma variedade de protocolos, incluindo atraso e condicionamento de traço e condicionamento sob incerteza temporal. A rede é expressa em termos de equações que operam em tempo real de acordo com as regras de aprendizagem competitiva da Hebbian. O desdobramento do tempo a partir do início e deslocamento de eventos, como estímulos condicionados, é representado pela propagação da atividade ao longo de linhas de retardo. As entradas de estímulos condicionados para a unidade de processamento surgem de toques colaterais de cada elemento sequencial dessas linhas de atraso. O modelo pode ser alinhado com circuitos anatômicos do cerebelo e tronco encefálico que são essenciais para o aprendizado e desempenho das respostas condicionadas do piscar de olhos.


Incerteza na ocorrência de recompensa: rampa DA

Fiorillo et al. [15] associaram a apresentação de cinco estímulos visuais diferentes aos macacos com o atraso, probabilístico (p r= 0, 0,25, 0,5, 0,75, 1) entrega de recompensas de suco. Eles usaram um paradigma de condicionamento de retardo, no qual o estímulo persiste por um intervalo fixo de 2s, com recompensa sendo entregue quando o estímulo desaparece. Após o treinamento, o comportamento de lamber antecipação dos macacos indicou que eles estavam cientes das diferentes probabilidades de recompensa associadas a cada estímulo.

A Figura 1a mostra histogramas de população de atividade celular DA extracelularmente registrada, para cada p r. A teoria TD prevê que a ativação fásica das células DA no momento dos estímulos visuais deve corresponder ao média recompensa esperada e, portanto, deve aumentar com p r. A Figura 1a mostra exatamente isso - de fato, em toda a população, o aumento é bastante linear. Morris et al. [16] relatam um resultado semelhante em uma tarefa de condicionamento instrumental (traço) também envolvendo reforço probabilístico.

Erros médios de predição em uma tarefa de recompensa probabilística (a) Resposta DA em tentativas com diferentes probabilidades de recompensa. Os histogramas de tempo de peri-estímulo da população (PSTHs) mostram a atividade de pico somada de vários neurônios DA ao longo de muitas tentativas, para cada p r, agrupados em testes recompensados ​​e não recompensados ​​em probabilidades intermediárias. (b) Erro de previsão TD com escala assimétrica. Na tarefa simulada, em cada tentativa, um dos cinco estímulos foi escolhido aleatoriamente e exibido por vez t = 5. O estímulo foi desligado em t = 25, momento em que uma recompensa foi dada com uma probabilidade de p respecificado pelo estímulo. Usamos uma representação de linha de retardo tocada dos estímulos (ver texto), com cada estímulo representado por um conjunto diferente de unidades ('neurônios'). O erro TD foi δ(t) = r(t) + C(t - 1)·x(t) - C(t - 1)·x(t - 1), com r(t) a recompensa no momento t, e x(t) e C(t) os vetores de estado e peso para a unidade. Uma regra de aprendizagem TD online padrão foi usada com uma taxa de aprendizagem fixa α, C(t) = C(t - 1) + αδ(t)x(t - 1), então cada peso representava um valor de recompensa futuro esperado. Semelhante a Fiorillo et al., nós descrevemos o erro de previsão δ(t) calculada a média de muitas tentativas, depois que a tarefa foi aprendida. A assimetria representacional surge como valores negativos de δ(t) foram dimensionados por d = 1/6 antes da soma do PSTH simulado, embora a aprendizagem prossiga de acordo com erros fora de escala. Finalmente, para dar conta das pequenas respostas positivas no momento do estímulo para p r= 0 e no momento da recompensa (prevista) para p r= 1 visto em (a), presumimos uma chance pequena (8%) de que um estímulo preditivo seja identificado incorretamente. (c) resposta DA em p r= 0,5 tentativas, separadas em tentativas premiadas (esquerda) e não recompensadas (direita). (d) Modelo TD de (c). (a, c) Reimpresso com permissão de [15] © 2003 AAAS. A permissão do AAAS é necessária para todos os outros usos.

Por outro lado, no momento da entrega potencial da recompensa, a teoria TD prevê que na média não deve haver atividade, pois, em média, não há erro de previsão naquele momento. Claro, no projeto de reforço probabilístico (pelo menos para p r≠ 0, 1) há de fato um erro de previsão no momento da entrega ou não entrega da recompensa em cada tentativa. Nas tentativas em que uma recompensa é entregue, o erro de previsão deve ser positivo (já que a recompensa obtida é maior do que a recompensa média esperada). Por outro lado, em testes sem recompensa, deve ser negativo (consulte a Figura 1c). Crucialmente, no TD, a média dessas diferenças, ponderada por suas probabilidades de ocorrência, deve ser zero. Se não for zero, então esse erro de predição deve atuar como um sinal de plasticidade, mudando as predições até que não haja nenhum erro de predição. Em desacordo com essa expectativa, os dados na Figura 1a, que são calculados em média sobre os testes recompensados ​​e não recompensados, mostram que há de fato uma atividade média positiva neste momento. Isso também fica evidente nos dados de Morris et al. [16] (ver Figura 3c). As respostas positivas de DA não mostram sinais de desaparecimento, mesmo com treinamento substancial (ao longo dos meses).

Pior do que isso para o modelo TD e, de fato, o foco de Fiorillo et al. [15], é o aparente rampa da atividade DA em relação ao tempo esperado da recompensa. Como a magnitude da rampa é maior para p r= 0,5, Fiorillo et al. sugeriu que relata o incerteza na entrega de recompensa, ao invés de um erro de previsão e especulou que este sinal poderia explicar as propriedades aparentemente apetitivas da incerteza (como visto no jogo).

Tanto a atividade em rampa quanto a atividade no tempo esperado de recompensa representam desafios críticos para a teoria TD. A aprendizagem TD opera organizando para a atividade DA em um momento em um teste para ser previsto por pistas disponíveis anteriormente nesse julgamento. Assim, não está claro como qualquer atividade aparentemente previsível, seja no momento da recompensa ou na rampa anterior, pode persistir sem ser prevista pelo início do estímulo visual. Afinal, o p rA atividade dependente em resposta ao estímulo confirma seu status como um preditor válido. Além disso, um aspecto-chave do TD [17], é que ele acopla a previsão à escolha da ação usando o valor de um estado como uma indicação das recompensas futuras disponíveis desse estado e, portanto, sua atratividade como um alvo para a ação. A partir dessa perspectiva, uma vez que a atividade em rampa não é explicitamente prevista pela sugestão anterior, ela não pode influenciar as ações iniciais, como a decisão de jogar. Por exemplo, considere uma competição entre duas ações: uma eventualmente levando a um estado com uma recompensa determinística e, portanto, sem rampa, e a outra levando a um estado seguido por uma recompensa probabilística com a mesma média e uma rampa. Como a rampa não afeta a atividade no momento do estímulo condicionado, ela não pode ser usada para avaliar ou favorecer a segunda ação (jogo) em relação à primeira, apesar da incerteza extra.

Sugerimos a hipótese alternativa de que ambos esses padrões de disparo anômalo resultam diretamente das restrições implícitas pela baixa taxa de atividade de linha de base dos neurônios DA (2-4 Hz) na codificação do assinado erro de previsão. Conforme observado por Fiorillo et al. [15], erros de predição positiva são representados por taxas de disparo de

270% acima de linha de base, enquanto os erros negativos são representados por uma diminuição de apenas

55% abaixo linha de base (ver também [14, 18]). Essa assimetria é uma consequência direta da codificação de uma quantidade assinada por meio de disparos que tem uma linha de base baixa, embora, obviamente, só possa ser positiva. As taxas de disparo acima da linha de base podem codificar erros de predição positiva usando uma grande faixa dinâmica, no entanto, as taxas de disparo abaixo da linha de base só podem cair a zero, impondo uma restrição na codificação de erros de previsão negativa.

Consequentemente, deve-se ter cuidado ao interpretar as somas (ou médias) dos histogramas de tempo de peri-estímulo (PSTHs) de atividade em diferentes tentativas, como foi feito na Figura 1a. Os sinais de erro positivo e negativo codificados assimetricamente no momento do recebimento ou não recebimento da recompensa devem de fato não somam zero, mesmo que representem erros de previsão de TD corretos. Quando somados, o disparo baixo que representa os erros negativos nas tentativas não recompensadas não "cancelará" os erros positivos de codificação de disparo rápido nas tentativas premiadas e, em geral, a média mostrará uma resposta positiva. No cérebro, é claro, como as respostas não são calculadas em média sobre os testes (recompensados ​​e não recompensados), mas sobre os neurônios em um teste, isso não precisa representar um problema.

Isso explica a atividade positiva persistente (em média) no momento da entrega ou não entrega da recompensa. Mas e a rampa anterior a essa época? Pelo menos em certas representações neurais do tempo entre o estímulo e a recompensa, quando as tentativas são calculadas, essa mesma assimetria leva o DT a resultar exatamente em uma aceleração da atividade em direção ao tempo da recompensa. O mecanismo de aprendizagem TD tem o efeito de propagar, em uma base de ensaio a ensaio, erros de predição que surgem em um momento em um ensaio (como no momento da recompensa) para preditores potenciais (como o CS) que surgem em momentos anteriores dentro de cada tentativa. Sob a representação assimétrica de erros de predição positivos e negativos que acabamos de discutir, calcular a média desses erros de propagação em várias tentativas (como na Figura 1a) levará a médias positivas para períodos dentro de uma tentativa antes de uma recompensa. A forma precisa da rampa de atividade resultante depende da forma como os estímulos são representados ao longo do tempo, bem como da velocidade de aprendizagem, como será discutido a seguir.

A Figura 2 ilustra esta visão da proveniência da atividade de rampa. Aqui, uma representação de linha de retardo tocada do tempo desde que o estímulo é usado. Para isso, cada unidade ('neurônio') torna-se ativa (ou seja, assume o valor 1) em um certo atraso após o estímulo ter sido apresentado, de modo que cada intervalo de tempo após o início do estímulo seja consistentemente representado pelo disparo de uma unidade. A aprendizagem é baseada no erro TD (relatado dopaminergicamente), formalizado como δ(t) = r(t) + V(t) - V(t - 1), com V(t) a entrada ponderada da unidade ativa no momento t, e r(t) a recompensa obtida no momento t. Atualizar os pesos das unidades de acordo com a regra de atualização TD padrão com uma taxa de aprendizagem fixa, permite V(t) para, em média, representar as recompensas futuras esperadas (consulte a legenda da Figura 1). Como cada etapa de tempo subsequente é representada separadamente, erros de previsão TD podem surgir a qualquer momento durante a tentativa. A Figura 2a mostra esses erros em seis tentativas simuladas consecutivas nas quais p r= 0,5. Em cada tentativa, um novo erro positivo ou negativo surge no momento da recompensa, conseqüente ao recebimento ou não da recompensa, e passo a passo os erros das tentativas anteriores se propagam até o momento do estímulo, através a atualização constante dos pesos (por exemplo. o erro destacado em vermelho). Ao calcular a média (ou, como em PSTHs, somar) durante as tentativas, esses erros se cancelam em média, resultando em um histograma plano geral no intervalo após o início do estímulo e levando até o momento da recompensa (linha preta na Figura 2b, somados aos 10 testes mostrados em azul fino). No entanto, quando somados após escala assimétrica dos erros negativos por um fator de d = 1/6 (que simula a codificação assimétrica de erros de predição positivos e negativos por neurônios DA), segue-se uma rampa positiva de atividade, conforme ilustrado pela linha preta na Figura 2c. Observe que esse reescalonamento é apenas um representativo problema, resultante das restrições de codificação de um valor negativo sobre uma baixa taxa de disparo de linha de base, e não deve afetar o aprendizado dos pesos, de modo a não aprender valores errados (ver discussão). No entanto, como os PSTHs são somas diretas de picos neuronais, esse problema representacional está relacionado ao histograma resultante.

A retropropagação de erros de predição explica a atividade de rampa. (a) O erro de predição TD em cada uma das seis tentativas consecutivas (de cima para baixo) da simulação na Figura 1b, com p r= 0,5. Destacado em vermelho está o erro no momento da recompensa na primeira das tentativas e sua retropropagação gradual em direção ao momento do estímulo nas tentativas subsequentes. As letras em bloco indicam o resultado de cada ensaio específico (R = recompensado N = não recompensado). A sequência de recompensas que precede essas tentativas é fornecida no canto superior direito. (b) O erro TD dessas seis tentativas, e mais quatro depois delas, sobreposto. As linhas vermelha e verde ilustram o envelope dos erros nessas tentativas.A soma desses ensaios resulta em nenhuma atividade acima da linha de base em média (linha preta), pois erros positivos e negativos ocorrem aleatoriamente em 50% do tempo e, portanto, se cancelam. (c) No entanto, quando os erros de previsão são assimetricamente representados acima e abaixo da taxa de disparo de linha de base (aqui os erros negativos foram escalonados de forma assimétrica por d = 1/6 para simular a codificação assimétrica de erros de predição por neurônios DA), uma subida média de atividade emerge ao calcular a média sobre as tentativas, como é ilustrado pela linha preta. Todos os parâmetros de simulação são iguais aos da Figura 1b, d.

As Figuras 1b, d mostram a rampa decorrente desta combinação de codificação assimétrica e média inter-ensaio, para comparação com os dados experimentais. A Figura 1b mostra o PSTH calculado a partir de nossos dados simulados pela média sobre o representado assimetricamente δ(t) sinalizar

50 tentativas para cada tipo de estímulo. A Figura 1d mostra os resultados para o p r= 0,5 caso, dividido em ensaios recompensados ​​e não recompensados ​​para comparação com a Figura 1c. Os resultados simulados se assemelham aos dados experimentais no sentido de que eles replicam a resposta positiva líquida às recompensas incertas, bem como o efeito de rampa, que é mais alto no p r= 0,5 caso.

É simples derivar a resposta média no momento da recompensa (t = N) em teste T, ou seja, o erro médio de TD δ T(N), a partir da regra de aprendizagem TD com a representação simplificada do tempo da linha de atraso derivada e uma taxa de aprendizagem fixa α. O valor no penúltimo passo de tempo em uma tentativa, como uma função do número da tentativa (com os valores iniciais considerados zero), é

Onde r(t) é a recompensa no final do julgamento t. O sinal de erro na última etapa da tentativa T é simplesmente a diferença entre a recompensa obtida r(T), e o valor que prevê essa recompensa VT - 1(N - 1). Este erro é positivo com probabilidade p r, e negativo com probabilidade (1 - p r) Escalonando os erros negativos por um fator de d ∈ (0, 1], assim obtemos

Para codificação simétrica de erros positivos e negativos (d = 1), a resposta média é 0. Para codificação assimétrica (0 & ltd & lt 1), a resposta média é de fato proporcional à variância das recompensas e, portanto, máxima em p r= 0,5. Contudo, δ Té positivo e, concomitantemente, as rampas são positivas e, neste cenário específico, estão relacionadas à incerteza, por causa de, ao invés de ao invés de, a codificação de δ(t).

Na verdade, há uma diferença fundamental entre a incerteza e as contas de TD da atividade em rampa. De acordo com o primeiro, a rampa é um fenômeno dentro do ensaio, codificando a incerteza na recompensa, ao contrário, o último sugere que as rampas surgem apenas por meio do cálculo da média em vários ensaios. Dentro de um ensaio, ao calcular a média de neurônios registrados simultaneamente em vez de ensaios, os traços não devem mostrar uma rampa suave, mas uma atividade positiva e negativa intermitente correspondente a erros de predição de retropropagação dos ensaios imediatamente anteriores (como na Figura 2a).


Os componentes do condicionamento clássico

Podemos dividir o condicionamento clássico em quatro componentes principais. Esses componentes são os estímulos não condicionados e condicionados e a resposta condicionada e não condicionada. Se entendermos as relações entre esses componentes, seremos capazes de entender melhor o condicionamento clássico.

Agora vamos explicar brevemente cada um desses componentes e a relação entre eles:

  • Estímulo não condicionado: Isto é o estímulo que já é significativo e significativo o suficiente para o sujeito. Com isso, queremos dizer que é um estímulo capaz de provocar uma resposta por conta própria. No experimento de Pavlov, o estímulo não condicionado era a comida.
  • Resposta não condicionada: Esta é a resposta do sujeito na presença do estímulo não condicionado. No caso do experimento mencionado, a resposta não condicionada foi a salivação quando os cães viram a comida.
  • Estímulo condicionado: Este é o estímulo inicialmente neutro que não gera nenhuma resposta significativa no sujeito por conta própria. No entanto, por meio da associação com o estímulo não condicionado, é capaz de provocar uma nova resposta. No caso do experimento de Pavlov, esse estímulo foi o som do sino.
  • Resposta condicionada: Isto é o resposta após a introdução do estímulo condicionado. No caso desta experiência, eram os cães salivando ao ouvir o som do sino.

Aprendizagem humana

O condicionamento clássico consiste na interação desses componentes. Apresentar um estímulo neutro junto com um estímulo não condicionado em muitas ocasiões irá transformar o estímulo neutro em um estímulo condicionado. Por essa razão, o estímulo condicionado dará uma resposta condicionada semelhante à resposta não condicionada. Desse modo, um novo processo de aprendizagem surgiu em resposta à associação de dois estímulos diferentes.

Todas as pesquisas que surgiram do condicionamento clássico ajudou-nos a compreender muitos aspectos da aprendizagem humana. Graças a isso, podemos antecipar fobias e também vincular emoções a novos estímulos.

Pavlov acendeu a faísca que nos permitiu entender muito do que sabemos hoje sobre aprendizado e condicionamento.


SARSA: Controle de Diferenciação Temporal

Agora é hora de estender o método TD para o caso de controle. Aqui estamos nós no ativo cenário, queremos estimar a política ótima começando de um aleatório. Vimos na introdução que a regra de atualização final para o caso TD (0) foi:

[Nós_) leftarrow U (s_) + alpha big [ text_ + gamma U (s_) - Nós_) grande]]

A regra de atualização é baseada na tupla Estado-Recompensa-Estado. Nós estamos no caso de controle e nós usamos o Função Q (veja o segundo post) para estimar a melhor política. A função Q requer como entrada um par de ação de estado. O algoritmo TD para controle é direto, dê uma olhada na regra de atualização:

[Q (s_, uma_) leftarrow Q (s_, uma_) + alpha big [ text_ + gama Q (s_, uma_) - Q (s_, uma_) grande]]

É isso, simplesmente substituímos (U ) por (Q ), mas devemos ter cuidado porque há uma diferença. Agora precisamos de um novo valor que é a ação em t + 1. Isso não é um problema porque está contido na matriz Q. No Controle TD a estimativa é baseada na tupla Estado-ação-recompensa-estado-ação e esta tupla dá o nome ao algoritmo: SARSA. A SARSA foi introduzida em 1994 por Rummery e Niranjan no artigo “Q-Learning On-Line Usando Sistemas Connectionist” e foi originalmente chamada Q-learning modificado. Em 1996, Sutton introduziu o nome atual.

Para obter a intuição por trás do algoritmo, consideramos novamente um único episódio de um agente se movendo em um mundo. O robô começa em (s_ <0> ) e após sete visitas ele atinge um estado terminal em (s_ <5> ). Para cada estado, temos uma ação associada. Avançando, o algoritmo leva em consideração apenas o estado em t e t + 1. Na implementação padrão da SARSA, o estados anteriores são ignorados, conforme mostrado pela sombra em cima deles na ilustração gráfica. Isso está de acordo com a estrutura do TD, conforme explicado na seção TD (0). Agora eu gostaria de resumir todos os etapas do algoritmo:

  1. Mova uma etapa selecionando (a_) de ( pi (s_))
  2. Observe: (r_), (s_), (uma_)
  3. Atualize a função de ação de estado (Q (s_, uma_))
  4. Atualize a política ( pi (s_) leftarrow underset < text > Q (s_,uma_))

No passo 1 o agente seleciona uma ação da política e avança um passo. No passo 2 o agente observa a recompensa, o novo estado e a ação associada. No etapa 3 o algoritmo atualiza a função de ação de estado usando a regra de atualização. No Passo 4 estamos usando o mesmo mecanismo de MC para controle (veja a segunda postagem), o política ( pi ) é atualizada a cada visita escolhendo a ação com o maior valor de ação de estado. Estamos fazendo a política ambicioso. Quanto aos métodos de MC, usamos a condição de início de exploração.

Podemos aplicar as idéias TD (λ) ao SARSA? Sim, nós podemos. SARSA (λ) segue as mesmas etapas do TD (λ) implementando o rastreios de elegibilidade para acelerar a convergência. A intuição por trás do algoritmo é a mesma, mas em vez de aplicar o método de previsão aos estados, o SARSA (λ) o aplica aos pares estado-ação. Temos um rastreamento para cada ação de estado e esse rastreamento é atualizado da seguinte forma:

Para atualizar a função Q, usamos a seguinte regra de atualização:

[Q_(s, a) = Q_(s, a) + alpha delta_ e_(s, a) qquad text s em S ]

Considerando que neste post apresentei muitos conceitos novos, não irei prosseguir com a implementação do SARSA em Python (λ). Considere isso um dever de casa e tente implementá-lo sozinho. Se o que foi explicado nas seções anteriores não for suficiente, você pode ler o capítulo 7.5 do livro de Sutton e Barto.


Aprendizagem de diferença temporal

Aprendizagem de diferença temporal (TD) é uma abordagem para aprender como prever uma quantidade que depende dos valores futuros de um determinado sinal. O nome TD deriva de seu uso de mudanças, ou diferenças, em previsões ao longo de etapas de tempo sucessivas para conduzir o processo de aprendizagem. A previsão em qualquer etapa de tempo é atualizada para aproximá-la da previsão da mesma quantidade na próxima etapa de tempo. É um processo de aprendizagem supervisionado em que o sinal de treinamento para uma previsão é uma previsão futura. Os algoritmos TD são freqüentemente usados ​​no aprendizado por reforço para prever uma medida da quantidade total de recompensa esperada para o futuro, mas também podem ser usados ​​para prever outras quantidades. Algoritmos TD de tempo contínuo também foram desenvolvidos.


Mecanismos teóricos do condicionamento do medo traço

No condicionamento do medo traço, o CS e os EUA são temporariamente descontínuos. Assim, o deslocamento de CS e o início de US são separados por um intervalo sem estímulo. Durante o teste subsequente, a resposta é mais fraca em comparação com os sujeitos condicionados por retardo, onde o CS e o US coincidem, assim se sobrepondo na apresentação. Esta é uma diferença comportamental robusta que ocorre após relativamente poucas ou muitas tentativas (Ellison, 1964 Kamin, 1961 Pavlov, 1927). A diferença entre o traço e o condicionamento de atraso levou a diferentes relatos teóricos que se concentraram em três mecanismos potenciais. Esses mecanismos incluem diferenças na força associativa (que tem sido o foco teórico da maioria dos estudos neurobiológicos de condicionamento de traços de medo), aprendizado inibitório ou padrão temporal de resposta.

Força associativa enfraquecida

Uma interpretação óbvia das diferenças comportamentais entre o traço e o condicionamento de retardo é que o aumento do intervalo do traço enfraquece a relação entre o CS e o US, resultando em um aprendizado associativo mais pobre em comparação com quando não há nenhum intervalo de traço (Pavlov, 1927). Assim, de acordo com essa interpretação, a diferença no congelamento condicionado entre o condicionamento de retardo e o traço de medo demonstra um déficit na aprendizagem os dois grupos diferem em termos da força associativa do CS. Isso pode ocorrer porque no condicionamento de retardo, o CS é um melhor preditor do US em comparação ao condicionamento de traço, em que o CS não prediz imediatamente o US. Na verdade, o termo & # x0201ctrace & # x0201d originou-se dessa maneira de pensar, com a ideia de que a ativação residual do centro CS no cérebro foi o que foi emparelhado com o parto nos Estados Unidos (Pavlov, 1927). Nas abordagens modernas, este & # x0201ctrace & # x0201d está mais associado à ideia de um traço de memória que decai em função do tempo, resultando em uma representação de CS mais fraca emparelhada com os EUA. A evidência primária para esse relato vem de diferenças simples de comportamento durante o CS. Quando um estímulo diferente intervém entre CS e US, a ligação associativa de CS e US pode ser reforçada (por exemplo, Bolles et al., 1978 Rescorla, 1982). Este efeito de ligação em si pode ocorrer por meio de vários mecanismos que incluem não apenas aprendizado CS-US fortalecido, mas reforço condicionado e configuração de ocasião (Rescorla, 1982 Thomas et al., 1989 Williams, 1991). O desafio, é claro, para uma conta de força associativa enfraquecida é demonstrar que a resposta condicionada enfraquecida na presença do CS reflete aprendizagem associativa enfraquecida sobre a contingência CS-US (por exemplo, Lockhart, 1966 Smith et al., 2007). Os experimentos descritos abaixo sugerem que respostas comportamentais fracas após o condicionamento de traços não são necessariamente indicativas de aprendizagem associativa fraca.

CS como Sinal de Segurança

Um segundo relato da diferença no comportamento induzido pelo condicionamento de traço e retardo concentra-se não nos efeitos sobre o aprendizado excitatório que ocorrem durante o condicionamento, mas, em vez disso, na possibilidade de que o aprendizado inibitório cause resposta reduzida ao CS. De acordo com esse relato, conforme o intervalo de rastreamento aumenta, o CS passa a sinalizar a ausência explícita do US, ou seja, o animal aprende que o US não ocorrerá quando o CS estiver presente (por exemplo, Kalat & # x00026 Rozin, 1973 Moscovitch & # x00026 LoLordo, 1968). Na verdade, à medida que o intervalo de rastreamento é alongado, o procedimento de condicionamento de rastreamento torna-se efetivamente um procedimento explicitamente desemparelhado, no qual o CS e os EUA não têm relação contígua (Smith et al., 2007). Nesses casos, há um comportamento mais contínuo na ausência do CS, porque o contexto por si só prediz melhor os EUA (Marlin, 1981). Consistente com essa ideia, Huerta e colegas (2000) descobriram que um intervalo de 30 s de rastreamento durante o condicionamento resultou em um alto nível de congelamento na ausência do CS. Isso foi seguido por uma depressão de congelamento com início de CS, seguido por uma retomada do congelamento após o término de CS. Isso sugere que o CS pode atuar como um sinal de segurança no condicionamento do medo de rastreamento, sinalizando a ausência explícita de choque. No entanto, a natureza inibitória desse aprendizado, o curso de tempo ao longo do qual ele se desenvolve e as variações de procedimento necessárias para gerá-lo ainda precisam ser determinados.

Cronometragem

Um terceiro relato teórico é que o aprendizado excitatório é mantido, mesmo com intervalos maiores de traços, mas as respostas são cronometradas para a apresentação do US. Embora a resposta medida na presença do SC seja atenuada, o SC ainda retém a capacidade de sinalizar ao animal quando o US ocorrerá. Assim, a resposta fraca na presença do CS após o condicionamento de traços não reflete o que o animal aprende, mas ao invés disso, a resposta (ou alguma outra medida de aprendizagem) precisa ser avaliada no momento da expectativa dos EUA.

Um exame da resposta em bloqueios temporais finos, às vezes, revela que a resposta começa baixo durante o CS, mas aumenta gradualmente para atingir o pico em torno do tempo das apresentações dos EUA anteriores (por exemplo, Drew et al., 2005 Huerta et al., 2000). Com mais condicionamento, esse pico torna-se mais agudo, sugerindo que o SC adquire aprendizagem excitatória temporalmente específica. Assim, a resposta é baixa durante o CS, não necessariamente por causa de sua fraca associação excitatória ou forte inibitória com o US. Em vez disso, há uma forte associação excitatória entre o CS e o momento da apresentação dos EUA, que é revelada pela resposta que atinge o pico no momento da apresentação dos EUA esperada (Balsam, 1984).

A melhor evidência para o momento da resposta condicionada no condicionamento do traço vem de estudos de condicionamento do piscar de olhos, que revelaram que, à medida que o condicionamento do traço progride, o pico de resposta muda em direção ao tempo de ocorrência do US. Esta aprendizagem temporal é específica ao estímulo e mostra seletividade na extinção (Joscelyne & # x00026 Kehoe, 2007 Kehoe & # x00026 Joscelyne, 2005). No condicionamento do medo, que envolve intervalos muito mais longos, há algumas evidências de que as associações CS-US rapidamente aprendidas resultam em uma resposta condicionada sendo programada para coincidir com o tempo em que os EUA são esperados (por exemplo, Burman & # x00026 Gewirtz, 2004 Drew et al., 2005). Para explicar a diferença na força da resposta entre o condicionamento de medo de rastreamento e de retardo, o tempo teria que se desenvolver rapidamente, porque as diferenças no condicionamento de medo de rastreamento e retardo freqüentemente ocorrem após uma única tentativa. A evidência de tempo, medida como o pico de resposta no momento do choque no pé esperado durante um teste de pós-condicionamento, é mista (ver Bevins & # x00026 Ayres, 1995 Davis, et al. 1989 Lattal & # x00026 Abel, 2001). Com base neste exame do comportamento durante o CS, parece que os padrões de resposta temporal ocorrem, mas podem exigir um treinamento extensivo para se desenvolver (ver também Delamater & # x00026 Holland, 2008).

É importante notar, entretanto, que a ausência de um pico de resposta próximo ao tempo esperado dos EUA não significa que os animais não aprendam contingências temporais no início do condicionamento. As teorias do tempo não esperam necessariamente que um padrão de comportamento consistente com as respostas temporizadas seja evidente no comportamento imediatamente (ver Balsam, et al. 2002). De fato, é possível que a ausência de tempo no comportamento reflita um déficit de desempenho em vez de um déficit de aprendizado, ou seja, os animais aprendem as relações temporais com rapidez e precisão, mas leva algum tempo para que esse aprendizado seja expresso no comportamento. Uma série de experimentos de Miller e colegas demonstrou que os animais codificam relações temporais mesmo em situações em que responder na presença do CS não mostra padrões de comportamento associados a uma resposta cronometrada (Cole et al., Molet 1995 et al., 2012). Uma implicação dessa hipótese de codificação temporal é que os animais formam associações temporais rápidas que podem ser reveladas no comportamento por meio de outras formas que não a resposta direta ao estímulo que foi condicionado. Assim, no condicionamento de traço, se o CS sinaliza o momento em que ocorre o US, os emparelhamentos subsequentes desse CS com um segundo estímulo devem resultar na maior associação quando esse segundo CS é apresentado no momento esperado de entrega do US.

Evidências claras disso vêm de estudos de condicionamento de segunda ordem. Na primeira fase de um experimento de condicionamento de segunda ordem, CS X é emparelhado com um US. Na segunda fase, um novo CS A é emparelhado com CS X. À medida que os emparelhamentos A-X aumentam, a resposta condicionada surge na presença de CS A e persiste quando o estímulo é subsequentemente testado por conta própria. Cole et al. (1995) descobriram que o condicionamento de segunda ordem para rastrear pistas foi maior quando o CS de segunda ordem é apresentado imediatamente antes do momento do choque esperado do que quando foi apresentado imediatamente antes do CS de primeira ordem.Isso significa que um arranjo temporal posterior entre A e X produz mais condicionamento do que uma relação anterior. Esta descoberta surpreendente foi estendida a outros procedimentos de condicionamento temporal (por exemplo, Urushihara & # x00026 Miller, 2010) e sugere fortemente que os animais codificam o arranjo temporal de estímulos durante o condicionamento de traços. Esses achados são consistentes com a ideia de que os animais aprendem tanto a associação entre SC e US, quanto a relação temporal entre eles.

O desafio para relatos teóricos com base no tempo é demonstrar que as diferenças no aprendizado de tentativa única entre os grupos de rastreamento e atraso se devem a diferenças no tempo dos EUA. Esta é uma questão não resolvida, pois a maioria dos estudos de condicionamento de traços que mostram o tempo avaliam o desempenho após uma série de tentativas de condicionamento, sugerindo que mesmo que não seja aparente no início, o tempo surge com o treinamento (por exemplo, Burman & # x00026 Gewirtz, 2004) . Outros estudos mostram que há algum grau de aprendizado temporal após uma única tentativa (Davis, et al. 1989), mas não está necessariamente claro como um aumento na resposta comportamental corresponde à codificação de informações temporais precisas. O desafio de usar a expressão da resposta condicionada como a variável dependente chave para distinguir diferentes contas é que não sabemos a relação entre a aprendizagem do intervalo temporal e a expressão dessa aprendizagem no comportamento de congelamento (Balsam et al., 2002 Balsam, 1984 Lockhart, 1966). É possível que a aprendizagem seja expressa de outras maneiras, particularmente no início do condicionamento, e que efeitos nulos no desempenho não correspondam necessariamente a efeitos nulos na aprendizagem temporal. Também é possível que os animais comecem a cronometrar imediatamente, mesmo quando nenhuma resposta antecipatória é evidente no comportamento (Bálsamo et al., Drew de 2002 et al., 2005). Na verdade, as abordagens experimentais que avaliam a aprendizagem independentemente da resposta evocada por um CS revelaram um papel fundamental para o tempo na aprendizagem associativa (ver, Molet & # x00026 Miller, 2013).

Esses diferentes relatos teóricos pintam um quadro complicado das diferenças entre o condicionamento do medo traço e retardado. Em muitos experimentos, as diferenças entre grupos condicionados de medo de rastreamento e de atraso emergem rapidamente, geralmente após uma única tentativa. É possível para qualquer um dos relatos teóricos descritos acima (excitação enfraquecida, inibição reforçada e codificação temporal) explicar a diferença de retardo de rastreamento. Uma literatura emergente sobre a neurobiologia do condicionamento de traços de medo demonstra que essas diferenças de comportamento rapidamente desenvolvidas correspondem ao recrutamento de diferentes circuitos neurobiológicos, mesmo após uma única tentativa de condicionamento. Esta literatura sugere que a inserção de um intervalo de rastreamento resulta em diferenças imediatas no nível do sistema que podem lançar luz sobre os processos teóricos.


Assista o vídeo: Aprendizagem - condicionamento - o cão de Pavlov (Agosto 2022).