Criptografia Numaboa
Frequência de ocorrência de letras no Português
Dom 28 Ago 2005 00:56 |
- Detalhes
- Categoria: Criptoanálise
- Atualização: Segunda, 13 Abril 2009 13:21
- Autor: vovó Vicki
- Acessos: 51120
Para variar, por mais que eu procurasse, não encontrei referências na web sobre a frequência de ocorrência de letras no Português do Brasil. Encontra-se análises de frequência para o Inglês, o Alemão, o Francês, o Espanhol e até para o Latim. Mas para o Português...
Se não tem (ou não acho), então mãos à obra: fiz um pequeno programa em Delphi (estava com preguiça e com pressa...) que faz a análise de textos em ASCII puro. O programa usa a tecnologia de streaming de memória, o que permite a leitura e a análise de textos muito longos (acima da limitação de 32 Kb do memo do Delphi). Este programa, chamado Frequência NumaBoa, está disponível para download na Seção de Downloads - categoria Criptologia - Criptoanálise.
Os resultados que obtive utilizando a "tecnologia de ponta" da Aldeia são apresentados a seguir.
Ensaio de Frequências
Como ensaio estatístico, usei 6 textos de autores conhecidos e de épocas diferentes. Todos os textos são de domínio público (sem © copyright) e podem ser encontrados com facilidade na Internet para download.
Os textos foram analisados transformado-se vogais acentuadas (á, ã, ô,...) em vogais normais e o C cedilha em C.
- A Profissão de Jacques Pedreira, de João do Rio, com 49.958 palavras e 232.882 letras.
- Memórias Póstumas de Brás Cubas (50 primeiros capítulos), de Machado de Assis, com 26.326 palavras e 115.580 letras.
- Contos Gauchescos, de João Simões Lopes Neto, com 33.013 palavras e 143.520 letras.
- Obras Selecionadas de Rui Barbosa, com os textos "A Emancipação Progride" e "Pelos Escravos! Às Senhoras Baianas", com 4.781 palavras e 23.121 letras.
- Os Bruzundangas, de Lima Barreto, com 41.633 palavras e 200.581 letras.
- Texto lido na cerimônia de encerramento do Fórum Social Mundial 2002, de Saramago, com 2.053 palavras e 9.827 letras. Este, o único autor português, para por um pouco de tempero na análise.
No total, foram analisadas 157.764 palavras com 725.511 letras - uma amostra significante para dar consistência aos resultados.
Frequência das letras
|
Características do Português do Brasil
- O comprimento médio das palavras em Português do Brasil é de 4.53 letras.
- Quando as letras são ordenadas pela frequência, formam grupos bem definidos:
- A, E, O
- S, R, I
- N, D, M, U, T, C
- L, P, V, G, H, Q, B, F
- Z, J, X, K, W, Y
Letras | Freq. |
---|---|
6 vogais: A, E, I, O, U, (Y) | 48.75 % |
20 consoantes | |
5 de frequência alta: S, R, N, D, M | 49.12 % |
10 de frequência média: T, C, L, P, V, G, H, Q, B, F | 21.03 % |
6 de frequência baixa: Z, J, X, K, W | 1.10 % |
100.00 % |
- As vogais A, E, I, O, U e as consoantes S, R, N, D, M formam mais de 3/4 dos textos em Português.
- A média de vogais a cada 10 letras é de 4.88
- Anterior
- Próximo >>