Estatística - Conceitos básicos
Dom 3 Abr 2005 04:56 |
- Detalhes
- Categoria: Estatística
- Atualização: Segunda, 26 Setembro 2005 01:11
- Autor: vovó Vicki
- Acessos: 60605
Na Criptologia, assim como em outras ciências, são realizados estudos experimentais ou observacionais que resultam numa coleção de dados numéricos. O propósito da investigação é responder uma questão científica onde o padrão de variação nos dados faz com que a resposta não seja óbvia. É aí que entra a estatística: padroniza os métodos para coleta e descrição dos dados e permite estabelecer evidências pró ou contra as questões que estejam sendo analisadas.
Mas, para começar a aplicar métodos estatísticos, é preciso conhecer alguns conceitos básicos.
Tipos de Dados
Os dados podem ser classificados em dois grandes grupos: os dados qualitativos ou categóricos e os dados quantitativos ou numéricos. Os dados qualitativos, como diz o nome, referem-se a qualidades do objeto estudado (por exemplo, frequente ou raro). Os dados quantitativos podem ser discretos ou contínuos. Os dados quantitativos discretos são contagens ou números inteiros e os dados quantitativos contínuos representam valores numa escala contínua (por exemplo, altura, peso, volume, etc).
Na criptologia (tanto na criptografia quanto na criptoanálise), os dados, na grande maioria das vezes, são dados quantitativos discretos (contagem de letras, de bytes, de bits, etc).
Resumo numérico
Para resumir numericamente dados qualitativos (por exemplo, se as letras forem classificadas em "mais frequentes", de "frequência média" e "raras"), pode-se usar a moda. A moda é dada pela categoria que possui o maior percentual de dados. No Português, a categoria da letra A é a moda porque é a letra mais frequente neste idioma (A = 14.63%, E = 12.57% e O = 10.73%). O gráfico de barras e o gráfico de setores (também conhecido como pizza) são os mais utilizados para representar o resumo numérico de dados qualitativos.
Para resumir numericamente dados quantitativos é preciso escolher medidas de locação ("qual é o tamanho dos números envolvidos?") e de dispersão ("quanta variação existe?") adequadas. Existem três escolhas principais para a medida de locação, os chamados "3 Ms". Estas medidas de locação estão ligadas a certas medidas de dispersão:
Medida de Locação | Dispersão |
Média (o valor 'médio') | Desvio Padrão |
Mediana (o valor 'do meio') | IQR |
Moda (o valor 'mais comum') | Proporção |
O histograma é um dos gráfico mais utilizado para representar o resumo numérico de dados quantitativos.
A Variação Amostral
Quando se coleta dados, estes devem ser classificados em categorias e contados. Se a população (coleção de unidades individuais) pesquisada for muito grande, podemos retirar uma amostra de dados, analisá-la e, eventualmente, tirar conclusões acerca da população usando a informação da amostra (este processo é chamado de inferência estatística).
Vamos tomar como exemplo a análise da frequência de ocorrência das letras no Português. Não será preciso contar todas as letras de todos os textos que já tenham sido escritos - basta analisar uma amostra suficientemente grande para que as contagens reflitam a proporção "global". Geralmente considera-se que cerca de 100 objetos seja uma amostra confiável.
Se forem contadas apenas as letras A, E, O, S e R de várias amostras de texto com 500 letras, poderemos realizar uma série de cálculos importantes. Veja a tabela abaixo:
Texto 1 | Texto 2 | Texto 3 | Texto 4 | Total | |
A | 68 | 81 | 67 | 83 | 299 |
E | 60 | 55 | 70 | 52 | 237 |
O | 53 | 53 | 45 | 67 | 218 |
S | 52 | 36 | 40 | 38 | 166 |
R | 31 | 31 | 47 | 27 | 136 |
Total | 264 | 256 | 269 | 267 | 1056 |
Apesar dos dados estarem "bem arrumadinhos" numa tabela, a primeira impressão que se tem é que as letras contadas nos quatro textos possuem uma distribuição muito diferente. Para testar se esta variação é significativa ou não, o que nos permite manter ou excluir determinados resultados, existem várias medidas mostradas a seguir.
- Anterior
- Próximo >>