[ad_1]
Motivar LDA
6 de enero de 2019·7 minutos de lectura
Hace unos meses, construí un sistema de recomendación que utiliza el modelado de temas para mostrar temas relevantes.ksa personal. El algoritmo utilizado fue la asignación latente de Dirichlet (LDA), un modelo generativo que existe desde principios de la década de 2000¹. Por supuesto, no escribí LDA desde cero, sino que usé la implementación scikit-learn de Python. Pero me hizo pensar en la secuencia de investigación que condujo a la creación del modelo LDA. El problema con tales bibliotecas es que es demasiado fácil escribir unas pocas líneas de su código y simplemente seguir adelante, así que he estado investigando mis viejos libros de aprendizaje automático con el objetivo de saber lo suficiente para entender LDA en toda su maldita probabilidad de explique. Detalle. En un momento hubo preocupación de que se convirtiera en un retroceso infinito, pero al final se impuso el sentido común y se construyó esta serie de artículos. En orden inverso tenemos:
V: Asignación latente de Dirichlet (LDA)
IV: Indexación Semántica Latente (LSA)
III: Mezcla de modelos y algoritmo EM
II: Modelos Bayesianos Generativos
I: distribución de Dirichlet
Esperemos que al final se alcance el objetivo. Comenzamos con la distribución de Dirichlet.
Si buscamos la distribución de Dirichlet en cualquier libro de texto, encontramos la siguiente definición:
La distribución Dirichlet Dir (a) es una familia de distribuciones de probabilidad continuas multivariadas parametrizadas por un vector a de números reales positivos. Es una generalización multivariante de la distribución beta. Las distribuciones de Dirichlet se usan comúnmente como distribuciones previas en las estadísticas bayesianas.
Una pregunta inmediata es por qué ¿Se utiliza la distribución de Dirichlet como distribución previa en las estadísticas bayesianas? Una de las razones es que es el conjugar anterior en varias distribuciones de probabilidad importantes: la distribución categórica y la distribución multinomial. Si lo usas a priori, las matemáticas se vuelven mucho más fáciles.
conjugar anterior
En la teoría de la probabilidad bayesiana, si la distribución posterior pags(θ|X) y la distribución anterior pags(θ) provienen de la misma familia de distribuciones de probabilidad, las anteriores y posteriores se denominan distribuciones conjugadasy el prior es el conjugar anterior para la función de probabilidad.
Si pensamos en el problema de derivar el parámetro θ para una distribución de un conjunto de datos dado Xentonces el teorema de Bayes dice que la distribución posterior es igual al producto de la función de verosimilitud θ → pags(X|θ) y el anterior pags(θ), normalizado por la probabilidad de los datos pags(X):
Dado que la función de probabilidad suele definirse a partir del proceso de generación de datos, podemos ver que las opciones de diferencia anteriores pueden dificultar más o menos el cálculo de la integral. Si el primero tiene la misma forma algebraica que la probabilidad, a menudo podemos obtener una expresión de forma cerrada para el último, evitando la necesidad de integración numérica.
Motivar la distribución de Dirichlet: tirar los dados
Mostramos cómo se puede utilizar la distribución de Dirichlet para caracterizar la variabilidad aleatoria de una distribución multinomial. Tomé este ejemplo de una excelente publicación de blog sobre la visualización de la distribución de Dirichlet.
Supongamos que hacemos dados de 6 caras pero permitimos que los resultados de una tirada sean solo 1, 2 o 3 (esto es para una consideración más fácil más adelante). Si el dado es justo, las probabilidades de los tres resultados son iguales e iguales a 1/3. Podemos representar las probabilidades de los resultados como un vector θ = (θ£, θ€, θ€).
θ tiene dos propiedades importantes: primero, la suma de las probabilidades para cada entrada debe ser igual a uno, y ninguna de las probabilidades puede ser negativa. Cuando se cumplen estas condiciones, los resultados asociados con la tirada de dados pueden describirse mediante una distribución multinomial.
En otras palabras, si miramos
[ad_2]
[2021] Distribución de Dirichlet {DH}
Sin comentarios