Backpropagation
MLP (Multi Layer Perceptron) entnado con el algoritmo de retropropagación es la red más usada
Ejemplo: Fronteras de desición
plot(P(1,1:4),P(2,1:4), 'ok','MarkerSize',15, 'LineWidth',5)
%plot(P(1,3),P(2,3),'ob','MarkerSize',15, 'LineWidth',5)
g.XAxisLocation = 'origin';
g.YAxisLocation = 'origin';
W1 = [-1 0;0 -1;1 0;0 1];
b1 = [0.5 0.75 -1.5 -0.25]';
p1 = unifrnd(-0.5,2.5,1,muestras);
p2 = unifrnd(-0.5,1.5,1,muestras);
scatter(p(1,:),p(2,:),[],a3)
Problema P11.1
Los pratrones en la abstracción usual de Hagan
Clase I
Clase IISi es linealente separable existe un hiperplano tal que
realizando las multiplicaciones
Pero (1) y (2) se contradicen, así el problema no es linealmente separable.
Para la solución de ii) es observación cualitativa (parecida al ejemplo de las notas)
la arquitectura es la siguiente
Problema P11.2
Como en el ejemplo, se encuentran los hiperplanos separadores para aislar a los punto en negro despues se hacen opraciones and (todos los hiperpalno contienen a la clase) y después operaciones or para la fuentes de información.
Arquitectura
Los primeros parametros son las ecuacions de las rectas.
La segunda capa
Motivada por las regiones definidas en las figuras
Finalmente
Problema P11.3
Solución:
Se define
De igual forma
Problema P11.4
La derivada parcial para el algoritmo del del gradiente descendiente
Se define
Regla de la cadena al término 
de la dinámica del sistema
entonces
Observamos que
Por lo tanto
Problema P11.5
i)
n1(p,w1,b1) = p*w1 +b1
n1(p, w1, b1) = 
a1 = logsig(n1)
a1(p, w1, b1) =

n2(p,w1,b1,w2,b2) = a1*w2 +b2
n2(p, w1, b1, w2, b2) =

a2 = n2
a2(p, w1, b1, w2, b2) =

e2(w1,w2,b1,b2,p,t) = (t-a2)^2 % cuidado con los simbolos
e2(w1, w2, b1, b2, p, t) =

ii)
de2dw1 = diff(e2,w1)
de2dw1(w1, w2, b1, b2, p, t) =

res = de2dw1(1,-2,1,1,1,1)
res =

iii)
s2 = -2 * (1) * (tn-a2(1,1,1,-2,1))
s2 =

s1(n) = diff(logsig(n))*(-2)*s2
s1(n) =

s1n = s1(n1(1,1,1))
s1n =

de2dw1 = s1n*(1)
de2dw1 =

Problema P11.6
Solución:
Problema P11.7
syms p t w1 w2 b1 b2 a1n n1n n2n
n1(p,w1,b1) = p*w1 +b1
n1(p, w1, b1) = 
a1(n1n) = tansig(n1n)
a1(n1n) =

n2(a1n,w2,b2) = a1n*w2 +b2
n2(a1n, w2, b2) = 
a2(n2n) =tansig(n2n)
a2(n2n) =

Propagación hacia adelante
Propagacion hacia atras
s2 = eval(-2* subs(diff(a2,n2n),n2n,n2v)*(1-a2v));
s1 = subs(diff(a1,n1n),n1n,n1v)* (-2) * s2;
w2_1 = -2 - alpha*s2*(a1v)';
w1_1 = -1 -alpha*s1*(-1) ;
Problema P11.8
De acuerdo a la arquitectura
Termino aditivo, la regla de la cadena en las derivadas parciales no ve este termino, las parciales para el paso los pesos son los usuales de retropropaganación
Para los pesos nuevos
La entrada a la función de activación en la capa dos
entonces
Así la regla queda como
Problema P11.9
Indice de desempeño
No hay desviación solo el cambio en el peso
Se deriva la estimación
Derivando con rsepcto a los pesos la salida de la neurona (con el objetivo de conseguir la que se necesita)
Dadas las condiciones iniciales
Entonces los incrementos para la primer entrada
Para la segunda entrada
Así sucesivamente.
Problema P11.10
La sesibilidad
La regla de actualización
Coincide con la regla Adaline, era de esperarse, el problema que se plantea resolver es el mismo salvo por el numero de capas.
APP
Network Function
Backpropagation Calculation
Function Approximation
Demostration Generalization
Referencias
El material se toma del libro de Martin Hagan et. al. enlace