poli
IPN-UPIITA
Redes Neuronales
Reporte R04
Dr. Rafael Martínez Martínez
Academia de sistemas

Instrucciones:
  • Cada problema/ejercicio debe tener procedimiento ordenado y completo que justifique adecuadamente la respuesta anotada.
  • Si falta el procedimiento o este no justifica la respuesta anotada entonces el problema vale 0 puntos aunque la respuesta sea correcta.

Problema 1 (50 puntos)

R04_1


Figura 1. Trayectoria del momentum

La Figura 1 fue tomada del articulo: Why Momentum Really Works. La Figura 1 muestra la trayectoria de la sucesión de búsqueda del mínimo para una función cuadrática (no especificada) y un punto inicial (interactivo). En particular la trayectoria es la generada por el algoritmo de momentum para sus parámetros1 $\alpha = 0.003$ (Step-size) y $\beta = 0.75$ (momentum). La entrega consiste en responder preguntas respecto a la primer parte del articulo2. Lo ideal es que dieras una primer lectura a todo la información y después contestaras regresando a la información especifica de la pregunta.

  1. Sin mover el punto de inicio. Reporta gráficas para las Figuras generadas por al aplicacion para los siguientes casos

    1. $\alpha = 0.003$ y $\beta = 0$
    2. $\alpha = 0.003$ y $\beta = 0.99$
    3. $\alpha = 0.0035$ y $\beta = 0.75$
    4. $\alpha = 0.0045$ y $\beta = 0.75$
    5. $\alpha = 0.0055$ y $\beta = 0.75$

    ¿Cuáles son tus primeras impresiones al respecto?

  2. En los algoritmos vistos en clase hablamos de la tasa de aprendizaje ¿Cuál es el nombre que recibe este parámetro en el articulo?

  3. Anotas las ecuaciones que se refieren al algoritmo de momentum. En este punto debería tenerse claro en donde intervienen los parámetros $\alpha$ y $\beta$ antes utilizados.

  4. ¿Qué sucede si en la Figura 2 el punto de inicio está en la linea de acción del vector propio? Reporta la figura que ilustre esto.

    R04_2


    Figura 2. Trayectoria de gradiente descendiente
  5. Para el algoritmo de gradiente descendiente puede caraterizarse el vector de error3 en cada iteración $k$ en términos de las componentes de la condición inicial, $\alpha$, los valores propios y los vectores propios (se a supuesto una forma cuadrática), es decir

    (1)
    \[w^{k}-w^{\star}=Q x^{k}=\sum_{i}^{n} x_{i}^{0}\left(1-\alpha \lambda_{i}\right)^{k} q_{i} \]

    de forma similar, se puede caracterizar al error entre la evaluación de la función en la iteración $k$ y la evaluación en el mínimo

    (2)
    \[f\left(w^{k}\right)-f\left(w^{\star}\right)=\sum\left(1-\alpha \lambda_{i}\right)^{2 k} \lambda_{i}\left[x_{i}^{0}\right]^{2} \]

    Explica la Figura 3 a detalle (todos los elementos gráficos son la ayuda). Puede servir mover los valores del Step-size para entender mejor la gráfica

    R04_3


    Figura 3. Geometría del error de evaluación
  6. ¿Por qué $|1-\alpha\lambda_i|<1$ garantiza convergencia?

  7. Explica que es una tasa. Hay muhcos contextos para ello, en particular reporta que es la tasa de convergencia de una sucesión (podrías encontrarlo como tasa de convergencia de un algoritmo). La idea es tener claro lo que sigue

  8. Reporta el valor óptimo de $\alpha$ y el valor óptimo de la tasa. Para concluir esta sección se debe tener en mente que cuando $\kappa=\lambda_n/\lambda_1 >> 1$ el algoritmo de gradiente descendiente tiene comportamientos no deseados.

  9. Debido al background que tenemos la sección: Example: Polynomial Regression, puede ser difícil de leer, se porporcionan algunos elementos para que lectura sea más digerible. Lo sección es un ejemplo diferente para ilustrar un fenómeno que se desprende de lo abordado en el pregunta v.

    Si tenemos los polinomios $\{p_1(\xi)=1,p_2(\xi)=\xi,p_3(\xi)=\xi^2\}$, el vector $a(\xi)=-1+2\xi-3\xi^2$, puede ser expresado por el vector de coordenadas $\bar{a}=[-1\,2-3]^T$ en $\mathbb{R}^3$ (como espacios vectoriales son isomorfos). Así se puede hacer la asiciación de bases $p_1(\xi)\rightarrow [1,0,0]^T$, $p_2(\xi)\rightarrow [0,1,0]^T$ y $p_2(\xi)\rightarrow [0,0,1]^T$. Así un problema que involucre propiedades de espacio vectorial en en el espacio de polinomios, puede trasladarse a un problema en $\mathbb{R}^n$, donde $n$ depende del grado del polinomio

    Supongamos que tenemos las sigueintes mediciones

    $\xi_i$ (las x) $d_i$ (las y)
    $-3$ $-0.95$
    $-2$ $0.5$
    $-1$ $0.7$

    Supongamos que queremos encontrar la mejor combinación lineal dada por

    \[ \operatorname{model}(\xi)=w_{1} p_{1}(\xi)+w_{2} p_{2}(\xi)+w_{3} p_{3}(\xi) \quad p_{i}=\xi \mapsto \xi^{i-1} \]

    De tal forma que los $w_i$ minimicen la siguiente expresión, esat expresión hace referencia a la suma de los errores al cuadrado entre el valor observado $d_i$ y el calculado con el modelo propuesto (es este sentido será la mejor combinación lineal)

    \[ \min_{w} \quad \frac{1}{2} \sum\left(\operatorname{model}\left(\xi_{i}\right)-d_{i}\right)^{2}=\frac{1}{2}\|Z w-d\|^{2}=\frac{1}{2}(Z w-d)^T(Z w-d) \]

    Con ayuda de la sección correspondiente del articulo y lo anterior. Escribe $Z$, $w$ y $d$ para el ejemplo antes planteado. A este punto debe de quedar clara la equivalencia entre la suma y la forma matricial.

    La sección va en esta dirección, se busca encontrar $w$ que minimice la expresión del error. Así, si se hace una cambio de base o cualquier trasformación de esta en $\mathbb{R}^n$ se vera reflejado en la correspondiente base de polinomios y viceversa. Observemos que queremos minimizar una forma cuadrática en $w$.

  10. Explica las Figuras 456. Resume las conclusiones de la sección correspondiente. La mejor forma de entender es manipular los elementos gráficos de las aplicaciones. Además recuerda que siempre puedes buscar información adicional.

R04_4


Figura 4. Combinación lineal base cánonica

R04_5


Figura 5. Combianción lineal eigenbase

R04_6


Figura 6. Combiación lineal eigenbase

Problema 2 (50 puntos)

Ingresa al siguiente curso Introduction to Machine Learning5. Revisa la información ubicada en Week 4: Margin Maximization. Es necesario decir que no se vale revisar las soluciones 😄. Pero si puedes comprobar las veces que sea necesario tu resultado con la herramienta proporcionada en la plataforma 😀. No se supervisa la revisión del material indicado, pero ojalá esta se realice.

La entrega consiste en

  1. Resolver Week 4 Exercises. Los resultados de tu calificación en la plataforma, deben de poderse visualizar dentro de one-note.

  2. Resolver Week 4 Lab. Los resultados de tu calificación en la plataforma, deben de poderse visualizar dentro de one-note.


1.Valores aproximados, pues hay un error en la visualización inicial que indican $\alpha = 0.02$, $\beta = 0.99$, si se intenta probar con los valores corregidos se aproxima a la Figura mostrada inicialmente en la aplicación

2.La segunda prte del articulo se entregará en el siguiente reporte

3.La diferencia entre la aproximación $w^k$ (en el paso $k$) y el mínimo $w^{\star}$

4.De ahi se desprende que $\alpha<2/\lambda_{max}$, visto en clase

5.La creación de una cuenta e ingresar al curso es gratis