martes, 26 de enero de 2010

Caso 2:: Aleatoriedad 2: La Revancha

Meta 1. Introduccion: Tipos de Distribuciones

En teoría de la probabilidad y estadística, la distribución de probabilidad de una variable aleatoria es una función que asigna a cada suceso definido sobre la variable aleatoria la probabilidad de que dicho suceso ocurra. La distribución de probabilidad está definida sobre el conjunto de todos los eventos rango de valores de la variable aleatoria.

Cuando la variable aleatoria toma valores en el conjunto de los números reales, la distribución de probabilidad está completamente especificada por la función de distribución, cuyo valor en cada real x es la probabilidad de que la variable aleatoria sea menor o igual que x.

Las distribuciones de probabilidad pueden representarse a través de una tabla, una gráfica o una fórmula, en cuyo caso tal regla de correspondencia se le denomina
función de probabilidad.

En el siguiente link se definen las distribuciones de probabilidad para variables discretas, distribucion binomial, las distribuciones de probabilidad para variables continuas y la distribucion normal.

http://www.uaq.mx/matematicas/estadisticas/xu4-5.html#t7

El siguiente link nos llevara a una pagina en donde se se muestran las diferentes distribuciones, en la parte inferior de la pagina se encuentran las imagenes de las curvas de probabilidad
, dandole click a la imagen nos lelvara a otra pagina donde se explica a detalle cada distribucion. De la misma forma agrege otro link qe nos muestra las tablas de los numeros criticos para cada distribucion.

http://www.itl.nist.gov/div898/handbook/eda/section3/eda366.htm
http://www.itl.nist.gov/div898/handbook/eda/section3/eda367.htm


***** * ***** * ***** * ***** * ***** * ***** * ***** * ***** * ***** * *****

Meta 2. Algoritmos generadores de numeros aleatorios con cierta distribucion.


Generador de números aleatorios.

Se denomina Generador de números aleatorios a un algoritmo capaz de producir una secuencia de números extraídos de una población uniforme mediante sucesos independientes.

Notas:

1.

No es una actividad trivial construir este tipo de algoritmos

2.

Por esta razón en simulación y otras disciplinas se construyen los generadores de números cuasi-aleatorios

3.

Un generador de números cuasi-aleatorios es aquel en el cual los números obtenidos, aunque no son propiamente aleatorios en un sentido general, son estadísticamente uniformes el intervalo [0,1] y estadísticamente independientes.


MÉTODOS PARA GENERAR NÚMEROS ALEATORIOS

Básicamente existen dos formas para determinar o generar un número aleatorio usando computadores. Las técnicas más usuales se describen a continuación.

** Dispositivos aleatorios

Son aquellos Generadores, basados en el estado del sistema, en los cuales el algoritmo mide el nivel de alguna variable estocástica del sistema de cómputo, justo en el momento de ser invocado. Por ejemplo, el nivel de voltaje de un circuito integrado del sistema.

Aunque a primera vista es un buen generador, presenta el inconveniente de no poder asegurar que la distribución de probabilidad de la cual provienen los datos sea uniforme.

** Bases de datos

Ello supone producir la secuencia. Un conjunto de números aleatorios, con algún procedimiento externo a la máquina, luego de lo cual la secuencia determinada será la fuente de alimentación de una base de datos.

Con este procedimiento, se logran números que provienen de una distribución uniforme y, además, a través de sucesos independientes; sin embargo, presentan un inconveniente a la vista del ingeniero: consumen recursos valiosos en el computador

** Ecuaciones en diferencias y pseudoaleatoriedad

Las ecuaciones en diferencias se emplean para construir generadores de números cuasi-aleatorios . Es decir que tales números no son verdaderamente aleatorios. La razón es que el número obtenido depende funcionalmente de algunos o todos sus predecesores

*** Dentro de las ecuaciones en diferencias y pseudoaleatoriedad tenemos el "Modelo General"

Sea y una secuencia de números (usualmente enteros) indexada bajo la variable independiente y gobernada por la expresión es una ecuación en diferencias (no necesariamente lineal ni homogénea) que quedará totalmente especificada si se determinan las condiciones de frontera , denominadas semillas del generador entonces el número aleatorio se obtiene mediante una transformación definida por:

Esta transformación asegura que los números pertenezcan al intervalo .

Notas:

1.

Este es el camino más utilizado actualmente

2.

La función debe seleccionarse de tal forma que los números sean independientes (estadísticamente hablando), mientras que la transformación debería tratar de asegurar que éstos sea uniformes en el intervalo .

3.

No para cualquier par función-transformación se obtendrán buenos números cuasi-aleatorios. El trabajo para encontrar las apropiadas es, la mayoría de la veces, un trabajo complicado.

Se encuentran varios tipos de programas basados en ecuaciones en diferencias que vale la pena destacar. El interés de estudio para esos programas, denominados Generadores Clásicos o también conocidos como Procedimientos aritméticos , no va más allá de la simple curiosidad.

*** Un generador no lineal

La definición de generador con base en una ecuación en diferencias no restringe la función que se debe emplear; sin embargo, los estudios en el área parecen mostrar que no se requiere procedimientos complejos para obtener números aleatorios, por el contrario la sencillez es una buena tendencia en su diseño.


***** * ***** * ***** * ***** * ***** * ***** * ***** * ***** * ***** * *****

Meta 3. Analisis de datos y pruebas de normalidad

Prueba de Kolmogórov-Smirnov

En estadística, la prueba de Kolmogórov-Smirnov (también prueba K-S) es una prueba no paramétrica que se utiliza para determinar la bondad de ajuste de dos distribuciones de probabilidad entre sí.

En el caso de que queramos verificar la normalidad de una distribución, la prueba de Lilliefors conlleva algunas mejoras con respecto a la de Kolmogórov-Smirnov; y, en general, las pruebas Shapiro-Wilk o Anderson-Darling son alternativas más potentes.

Conviene tener en cuenta que la prueba Kolmogórov-Smirnov es más sensible a los valores cercanos a la mediana que a los extremos de la distribución. La prueba de Anderson-Darling proporciona igual sensibilidad con valores extremos.

Estadístico

La distribución de los datos Fn para n observaciones yi se define como

F_n(x)={1 \over n}\sum_{i=1}^n \left\{\begin{matrix}1 & \mathrm{si}\ y_i\leq x, \\ 0 & \mathrm{alternativa}.\end{matrix}\right.

Para dos colas el estadístico viene dado por

D_n^{+}=\max(F_n(x)-F(x))\,
D_n^{-}=\max(F(x)-F_n(x))\,

donde F(x) es la distribución presentada como hipótesis.

Prueba de Anderson-Darling

En estadística, la prueba de Anderson-Darling es una prueba no paramétrica sobre si los datos de una muestra provienen de una distribución específica. La fórmula para el estadístico A determina si los datos <\dots (observar que los datos se deben ordenar) vienen de una distribución con función acumulativa F
A2 = − NS

donde

S=\sum_{k=1}^N \frac{2k-1}{N}\left[\ln F(Y_k) + \ln\left(1-F(Y_{N+1-k})\right)\right]
El estadístico de la prueba se puede entonces comparar contra las distribuciones del estadístico de prueba (dependiendo que F se utiliza) para determinar el P-valor.


***** * ***** * ***** * ***** * ***** * ***** * ***** * ***** * ***** * *****

Meta 4. Casos de aplicacion en la vida real

La distribución continua de probabilidad más importante en todo el campo de la estadística es la distribución normal. Su gráfica que recibe el nombre de curva normal o de campana de gauss, describe en forma aproximada muchos fenómenos
que ocurren en la naturaleza, la industria y la investigación.

La principal aplicación de la distribución normal en la electrónica está en el campo de las comunicaciones, especialmente en el ruido blanco. El ruido blanco es una interferencia que se presenta en todo rango de frecuencia y afecta todos los sistemas de comunicación; este ruido se comporta como una variable aleatoria normal, con media m = 0. Esta deducción proviene de la transformada de Fourier al espectro de frecuencia de una señal en el tiempo. La obtención de s (desviación standard) depende del ancho de banda, de la frecuencia donde se trabaje y del tipo de señal (voz, radio, tv, etc).


miércoles, 20 de enero de 2010

Simulacion 9/11

Empezemos con el concepto de Simulación: La simulación es el proceso de diseñar un modelo de un sistema real y llevar a término experiencias con él, con la finalidad de comprender el comportamiento del sistema o evaluar nuevas estrategias -dentro de los límites impuestos por un cierto criterio o un conjunto de ellos - para el funcionamiento del sistema. Otro concepto es: La Simulación es el diseñar y desarrollar un modelo computarizado de un sistema o proceso y conducir experimentalmente con este modelo con el propósito de entender el comportamiento del sistema del mundo real o evaluar varias estrategias con los cuales puedan operar el sistema.

La Similación intenta:
1. Descubrir el comportamiento de un sistema
2. Postular teorías
o hipótesis que
expliquen el comportamiento observado
3. Usar esas teorías para predecir el
comportamiento futuro del sistema, es decir mirar los efectos que se producirían en el sistema mediante los cambios dentro de él o en su método de operación (tiempo en minutos)

Una vez analizados los dos casos, se pudieron formular 4 metas:

1 * Existencia de métodos para la simulación general
2 * Casos de aplicación de la simulación apoyada en gráficos
3 * Cuando utilizar números aleatorios y cuando utilizar los números pseudoaleatorios
4 * Sugerencias para la validación de la simulación


Meta #1

Existen diferentes modelos de simulación, como por ejemplo:

1. MODELOS DETERMINISTICOS: Ni las variables endógenas y exógenas se pueden tomar como datos
al azar. Aquí se permite que las relaciones entre estas variables sean exactas o sea que no entren en ellas funciones de probabilidad. Este tipo determinístico quita menos de cómputo que otros modelos

2. MODELOS ESTOCASTICOS: Cuando por lo menos una variable es tomada como un dato al azar las relaciones entre variables se toman por medio de funciones probabilísticas, sirven por lo general para realizar grandes series de muestreos, quitan mucho tiempo en el computador
son muy utilizados en investigaciones científicas

3. MODELOS ESTATICOS: Es que en ellos no se toma en cuenta el tiempo dentro del proceso, por ejemplo: los modelos de juegos, modelos donde se observa las ganancias de una empresa

4. MODELOS DINAMICOS: Si se toma en cuenta la variación del tiempo, ejemplo: la variación de la temperatura, del aire durante un día, movimiento anual de las finanzas de una empresa.
En estos modelos físicos podemos realizar modelos a escala o en forma natural, a escala menor, e escala mayor, sirven para hacer demostraciones de procesos como para hacer experimentos nuevos.

5. MODELOS A ESCALA: Son los modelos sencillos de maquetas -> casa -> baño, cuartos, etc. También se pueden tener a tamaño natural a menor o mayor escala, bidimensional, tridimensional.

6. MODELO TEÓRICO: El 'modelo teórico' debe contener los elementos que se precisen para la simulación. Un ejemplo con trabajo de laboratorio es un programa de estadística con ordenador que genere números aleatorios y que contenga los estadísticos de la media y sus diferentes versiones : cuadrática- aritmética-geométrica-armónica. Además debe ser capaz de determinar la normalidad en términos de probabilidad de las series generadas. La hipótesis de trabajo es que la media y sus versiones también determinan la normalidad de las series. Es un trabajo experimental de laboratorio. Si es cierta la hipótesis podemos establecer la secuencia teorema, teoría, ley. Es el modelo principal de todo una investigación científica, gracias a ello podemos definir o concluir la hipotesis, las predicciones, etc.

7. MODELO CONCEPTUAL: El modelo conceptual desea establecer por un cuestionario y con trabajo de campo, la importancia de la discriminación o rechazo en una colectividad y hacerlo por medio de un cuestionario en forma de una simulación con una escala de actitud. Después de ver si la población es representativa o adecuada, ahora la simulación es la aplicación del cuestionario y el modelo es el cuestionario para confirmar o rechazar la hipótesis de si existe discriminación en la población y hacia que grupo de personas y en que cuestiones. Gran parte de las simulaciones son de este tipo con modelos conceptuales.

8. MODELO SISTÉMICO: El modelo sistémico es más pretencioso y es un trabajo de laboratorio. Se simula el sistema social en una de sus representaciones totales. El análisis de sistemas es una representación total. Un plan de desarrollo en el segmento de transportes con un modelo de ecología humana, por ejemplo. El énfasis en la teoría general de sistemas es lo adecuado en este tipo de simulaciones. Este método, que es para un Sistema complejo, es sumamente abstracto, no se limita a la descripción del sistema, sino que debe incluir en la simulación las entradas y salidas de energía y procesos de homeostasis, autopoiesis y retroalimentación.
Tanto el programa de estadística, como la escala de actitud, como el sistema total, son perfectas simulaciones de la realidad y modelizan todos los elementos en sus respectivas hipótesis de trabajo. Son también un microclima y el ambiente o el escenario en los procesos de simulación/experimentación. Otras propiedades que deben contener las simulaciones es que sean repetibles indefinidamente. Que eviten el efecto de aprendizaje que incita al encuestador a rellenar él mismo los cuestionarios y que se podrá evitar con algún control, que sean flexibles o mejorables y que no sea invasivo o cambiar la población de las muestras sucesivas.

META #2

La simulación se puede aplicar en casi todos los casos de la vida cotidiana.

Existen herramientas para hacer la simulación mas entendible, como por ejemplo los programas que convierten los resultados de la similacion en imagenes, esta herramienta es utilizada para los casos complejos, donde es un tanto complicado interpretar los resultados, pero la utilización de estos programas es un costo extra en el proyecto, por lo cual solo se utiliza cuando es realmente necesario.

META #3

Los números aleatorios son aquellos obtenidos al azar, es decir, que todo numero tenga la misma probabilidad de ser elegido y que la elección de uno no dependa de la elecciñon del otro. Estos se utilizan cuando se requiere una impredicibilidad en unos determinados datos.

Los números pseudoaleatorios son aquellos generados por medios de una función (determinista, no aleatoria) y que aparentan ser aleatorios. Se generan a partir de un valor inicial aplicando iterativamente la función.

META #4

Para poder validad la simulación es necesario seguir una serie de pasos:

1.- Cada corrida genera resultados.

2.- Si se realiza otra corrida se obtiene resultados diferentes.

3.- ¿Cuantas veces se debe correr el programa? Aún cuando en cada corrida los resultados son diferentes estadísticamente estos pueden ser confiables.

4.- Establecer las hipótesis para cada tipo de resultados, aún cierto nivel de significancia.

Por ejemplo si se hacen 5 simulaciones se puede probar que probabilísticamente elementos semejantes en el sistema tienen un comportamiento y eficacia semejantes.


5.- Simultáneamente realizar pruebas de hipótesis y se puedan comparar los resultados con algún patrón de información previamente conocido para tener un panorama más amplio y confiable.

6.- Si la hipótesis no fue aceptada entonces se debe revisar exhaustivamente todo el programa las funciones, procedimientos entradas y salidas de información, hasta encontrar si hay un posible error.