A Aldeia Numaboa ancestral ainda está disponível para visitação. É a versão mais antiga da Aldeia que eu não quis simplesmente descartar depois de mais de 10 milhões de pageviews. Como diz a Sirley, nossa cozinheira e filósofa de plantão: "Misericórdia, ai que dó!"

Se você tiver curiosidade, o endereço é numaboa.net.br.

Leia mais...

Estatística - Conceitos básicos

Dom

3

Abr

2005


04:56

(141 votos, média 3.55 de 5) 


Na Criptologia, assim como em outras ciências, são realizados estudos experimentais ou observacionais que resultam numa coleção de dados numéricos. O propósito da investigação é responder uma questão científica onde o padrão de variação nos dados faz com que a resposta não seja óbvia. É aí que entra a estatística: padroniza os métodos para coleta e descrição dos dados e permite estabelecer evidências pró ou contra as questões que estejam sendo analisadas.

Mas, para começar a aplicar métodos estatísticos, é preciso conhecer alguns conceitos básicos.

Tipos de Dados

Os dados podem ser classificados em dois grandes grupos: os dados qualitativos ou categóricos e os dados quantitativos ou numéricos. Os dados qualitativos, como diz o nome, referem-se a qualidades do objeto estudado (por exemplo, frequente ou raro). Os dados quantitativos podem ser discretos ou contínuos. Os dados quantitativos discretos são contagens ou números inteiros e os dados quantitativos contínuos representam valores numa escala contínua (por exemplo, altura, peso, volume, etc).

Na criptologia (tanto na criptografia quanto na criptoanálise), os dados, na grande maioria das vezes, são dados quantitativos discretos (contagem de letras, de bytes, de bits, etc).

Resumo numérico

Para resumir numericamente dados qualitativos (por exemplo, se as letras forem classificadas em "mais frequentes", de "frequência média" e "raras"), pode-se usar a moda. A moda é dada pela categoria que possui o maior percentual de dados. No Português, a categoria da letra A é a moda porque é a letra mais frequente neste idioma (A = 14.63%, E = 12.57% e O = 10.73%). O gráfico de barras e o gráfico de setores (também conhecido como pizza) são os mais utilizados para representar o resumo numérico de dados qualitativos.

Para resumir numericamente dados quantitativos é preciso escolher medidas de locação ("qual é o tamanho dos números envolvidos?") e de dispersão ("quanta variação existe?") adequadas. Existem três escolhas principais para a medida de locação, os chamados "3 Ms". Estas medidas de locação estão ligadas a certas medidas de dispersão:

Medida de LocaçãoDispersão
Média (o valor 'médio')Desvio Padrão
Mediana (o valor 'do meio')IQR
Moda (o valor 'mais comum')Proporção

O histograma é um dos gráfico mais utilizado para representar o resumo numérico de dados quantitativos.

A Variação Amostral

Quando se coleta dados, estes devem ser classificados em categorias e contados. Se a população (coleção de unidades individuais) pesquisada for muito grande, podemos retirar uma amostra de dados, analisá-la e, eventualmente, tirar conclusões acerca da população usando a informação da amostra (este processo é chamado de inferência estatística).

Vamos tomar como exemplo a análise da frequência de ocorrência das letras no Português. Não será preciso contar todas as letras de todos os textos que já tenham sido escritos - basta analisar uma amostra suficientemente grande para que as contagens reflitam a proporção "global". Geralmente considera-se que cerca de 100 objetos seja uma amostra confiável.

Se forem contadas apenas as letras A, E, O, S e R de várias amostras de texto com 500 letras, poderemos realizar uma série de cálculos importantes. Veja a tabela abaixo:

Texto 1Texto 2Texto 3Texto 4Total
A 68816783299
E 60557052237
O 53534567218
S 52364038166
R 31314727136
Total 2642562692671056

Apesar dos dados estarem "bem arrumadinhos" numa tabela, a primeira impressão que se tem é que as letras contadas nos quatro textos possuem uma distribuição muito diferente. Para testar se esta variação é significativa ou não, o que nos permite manter ou excluir determinados resultados, existem várias medidas mostradas a seguir.


Média

A média aritmética é uma medida de locação usada para resumir dados quantitativos aproximadamente simétricos. Para se obter a média aritmética de uma categoria basta somar suas frequências e dividi-las pelo total de contagens. Por exemplo, no total foram contadas 299 letras A em 4 amostras diferentes. A média das letras A é:

     f / n = 299 / 4 = 74.75

Na tabela abaixo encontram-se as médias de todas as letras analisadas:

LetraContagemAmostrasMédia
A299474.75
E237459.25
O218454.50
S166441.50
R136434.00

A média arimética nos diz qual o valor aproximado que devemos esperar quando fazemos a contagem.

Variância

A variância é o desvio quadrático médio da média (creeeedo wink ) e é calculada da seguinte maneira: Soma de todos (valor encontrado - média)2) / número de contagens - 1. Calculando a variância da letra A temos:

     (81 - 74.75)2 + (67 - 74.75)2 + (83 - 74.75)2 + (68 - 74.75)2 / 4 - 1 =
     6.252 + (-7.75)2 + (-8.25)2 + (6.75)2 / 3 = 39.06 + 60.06 + 68.06 +  45.56 / 3 = 212.74 / 3 =
     70.91

A tabela a seguir mostra a variância (representada por s2) de todas as letras contadas:

LetraVariância
A70.91
E62.25
O83.66
S51.66
R78.66

O variância nos diz quanto, em média, os valores encontrados estão se afastando do valor esperado. Quanto menor a variância, mais próximos da média estão os dados. Como a variância é um valor quadrático, isto significa que seu valor é o quadrado da média de dispersão.

Desvio Padrão

O desvio padrão é a raiz quadrada da variância, ou seja, é o valor da média de dispersão. A letra A, por exemplo, mostrou uma variância = 70.91, o que nos fornece um desvio padrão s = raiz 70.91 = 8.42. O desvio padrão nos diz que podemos esperar contagens para a letra A entre 74.75 - 8.42 = 66.33 (média menos o desvio padrão) e 74.75 + 8.42 = 83.17 (média mais o desvio padrão). Os desvios padrão das letras contadas nos quatro textos são:

LetraDesvio Padrão
Araiz 70.91 = 8.42
Eraiz 62.25 = 7.89
Oraiz 83.66 = 9.15
Sraiz 51.66 = 7.19
Rraiz 78.66 = 8.87

A Mediana e a Amplitude Inter-Quartis

Uma outra forma de sumarizar dados é em termos dos quantis ou percentis. Essas medidas são particularmente úteis para dados não simétricos. A mediana (ou percentil 50) é o valor que divide os dados ordenados ao meio, isto é, metade dos dados têm valores maiores do que a mediana e a outra metade tem valores menores do que a mediana. Adicionalmente, os quartis inferior e superior, Q1 e Q3, são definidos como os valores abaixo dos quais estão um quarto e três quartos, respectivamente, dos dados. Estes três valores são frequentemente usados para resumir os dados juntamente com o mínimo e o máximo.

No caso da contagem da letra A em 4 textos diferentes de 500 letras, as frequências encontradas foram 68, 81, 67 e 83. Primeiramente, ordena-se as contagens: 67, 68, 81, 83. Depois calcula-se a mediana:

     número de contagens + 1 / 2 = 4 + 1 / 2 = 5 / 2 = 2.5

A mediana está exatamente entre o segundo e o terceiro valor, ou seja, entre 68 e 81. Neste caso, a mediana será 68 + (81 - 68) x 0.5 = 68 + 13 x 0.5 = 68 + 6.5 = 74.5

O quartil inferior, chamado de Q1, indica o ponto abaixo do qual se encontram 1/4 dos valores medidos e é calculado

     número de contagens + 1 / 4 = 4 + 1 / 4 = 5 / 4 = 1.25

Q1 está entre o primeiro e o segundo valor medido, ou seja, entre 67 e 68. Q1 = 67 + (68 - 67) x 0.25 = 67 + 1 x 0.25 = 67 + 0.25 = 67.25.

O quartil superior, chamado de Q3, indica o ponto abaixo do qual se encontram 3/4 dos valores medidos e é calculado

     (número de contagens + 1) x 3 / 4 = (4 + 1) x 3 / 4 = 15 / 4 = 3.75

Q3 está entre o terceiro e o quarto valor medido, ou seja, entre 81 e 83. Q3 = 81 + (83 - 81) x 0.75 = 81 + 2 x 0.75 = 81 + 1.5 = 82.5.

A medida de dispersão é a amplitude inter-quartis: IQR = Q3 - Q1. No exemplo da letra A, IQR = 82.5 - 67.25 = 15.25.

A Moda

A moda é o valor que ocorre com maior frequência. Em algumas contagens, como no caso da contagem da letras A, ocorre mais de um "pico". Neste caso, este conjunto de dados é chamado de multimodal (as contagens da letra A parecem ter moda ao redor de 60 e ao redor de 80). Nestes casos, é interessante separar amostras usando algum critério, por exemplo, separar vogais de consoantes. No Português, as letras mais frequentes, em ordem decrescente, são A, E, O, S, R, I, N, etc. A letra A é a mais frequente e é a moda do idioma. Se considerarmos apenas as vogais, a letra A continua sendo a moda, mas se considerarmos apenas as consoantes, a letra S será a moda.

mfx brokerчугунные сковородки отзывылобановский александр игоревич харьковотзыв датьdeeo утеплитель технониколь пеноплексMFX Broker

Informações adicionais