Criptografia Numaboa
Frequência de ocorrência de letras no Português
Dom 28 Ago 2005 00:56 |
- Detalhes
- Categoria: Criptoanálise
- Atualização: Segunda, 13 Abril 2009 13:21
- Autor: vovó Vicki
- Acessos: 51053
Para variar, por mais que eu procurasse, não encontrei referências na web sobre a frequência de ocorrência de letras no Português do Brasil. Encontra-se análises de frequência para o Inglês, o Alemão, o Francês, o Espanhol e até para o Latim. Mas para o Português...
Se não tem (ou não acho), então mãos à obra: fiz um pequeno programa em Delphi (estava com preguiça e com pressa...) que faz a análise de textos em ASCII puro. O programa usa a tecnologia de streaming de memória, o que permite a leitura e a análise de textos muito longos (acima da limitação de 32 Kb do memo do Delphi). Este programa, chamado Frequência NumaBoa, está disponível para download na Seção de Downloads - categoria Criptologia - Criptoanálise.
Os resultados que obtive utilizando a "tecnologia de ponta" da Aldeia são apresentados a seguir.
Ensaio de Frequências
Como ensaio estatístico, usei 6 textos de autores conhecidos e de épocas diferentes. Todos os textos são de domínio público (sem © copyright) e podem ser encontrados com facilidade na Internet para download.
Os textos foram analisados transformado-se vogais acentuadas (á, ã, ô,...) em vogais normais e o C cedilha em C.
- A Profissão de Jacques Pedreira, de João do Rio, com 49.958 palavras e 232.882 letras.
- Memórias Póstumas de Brás Cubas (50 primeiros capítulos), de Machado de Assis, com 26.326 palavras e 115.580 letras.
- Contos Gauchescos, de João Simões Lopes Neto, com 33.013 palavras e 143.520 letras.
- Obras Selecionadas de Rui Barbosa, com os textos "A Emancipação Progride" e "Pelos Escravos! Às Senhoras Baianas", com 4.781 palavras e 23.121 letras.
- Os Bruzundangas, de Lima Barreto, com 41.633 palavras e 200.581 letras.
- Texto lido na cerimônia de encerramento do Fórum Social Mundial 2002, de Saramago, com 2.053 palavras e 9.827 letras. Este, o único autor português, para por um pouco de tempero na análise.
No total, foram analisadas 157.764 palavras com 725.511 letras - uma amostra significante para dar consistência aos resultados.
Frequência das letras
|
Características do Português do Brasil
- O comprimento médio das palavras em Português do Brasil é de 4.53 letras.
- Quando as letras são ordenadas pela frequência, formam grupos bem definidos:
- A, E, O
- S, R, I
- N, D, M, U, T, C
- L, P, V, G, H, Q, B, F
- Z, J, X, K, W, Y
Letras | Freq. |
---|---|
6 vogais: A, E, I, O, U, (Y) | 48.75 % |
20 consoantes | |
5 de frequência alta: S, R, N, D, M | 49.12 % |
10 de frequência média: T, C, L, P, V, G, H, Q, B, F | 21.03 % |
6 de frequência baixa: Z, J, X, K, W | 1.10 % |
100.00 % |
- As vogais A, E, I, O, U e as consoantes S, R, N, D, M formam mais de 3/4 dos textos em Português.
- A média de vogais a cada 10 letras é de 4.88
Distribuição da frequência uniliteral - DFU
frequência | 15 | 13 | 11 | 8 | 7 | 6 | 5 | 5 | 5 | 5 | 4 | 4 | 3 | 3 | 2 | 1 | 1 | 1 | 1 | 1 | 0 | 0 | 0 | 0 | 0 | 0 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Letra | A | E | O | S | R | I | N | D | M | U | T | C | L | P | V | G | H | Q | B | F | Z | J | X | H | Y | W |
DIGRAMAS E TRIGRAMAS MAIS FREQUENTES
|
|
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
20 Digramas mais frequentes (em 100 letras) |
20 Trigramas mais frequentes (em 100 letras) |
Letras iniciais e finais
Letras | D | A | E | C | P | S | O | M | N | Q | T | F | U | V | L | R | B | I | G | J | H | Z | K | X | W | Y |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Iniciais | 12 | 11 | 11 | 8 | 7 | 6 | 6 | 6 | 5 | 4 | 4 | 3 | 3 | 3 | 2 | 2 | 2 | 2 | 2 | 1 | 1 | - | - | - | - | - |
Letras | A | O | E | S | M | R | U | I | L | Z | D | T | H | N | C | Y | B | X | V | K | G | F | P | W | Q | J |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Finais | 70 | 65 | 60 | 48 | 21 | 14 | 10 | 5 | 4 | 2 | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - | - |
PALAVRAS CURTAS MAIS FREQUENTES
|
|
|
OBSERVAÇÕES
O textos para esta análise foram obtidos dos sites abaixo:
- A Biblioteca Virtual do Estudante Brasileiro
- Falares Literários
- IMN - Instituto Moreira Necho - O Site Brasileiro da Comunicação (site desativado)
- Vitual Books Online - Sua Biblioteca de Livros Eletrônicos
- Livro Gratuito
Em 17.03.07 a Isis me enviou um e-mail com um link para um trabalho do Bruno da Rocha Braga ( O endereço de e-mail address está sendo protegido de spambots. Você precisa ativar o JavaScript enabled para vê-lo. ), Análise de Freqüências de Línguas publicado em 24 de março de 2003, que complementa este texto. Fui conferir a indicação e, para minha surpresa, o cara usou um programa da minha autoria (que pode ser baixado na seção de downloads) para realizar seus experimentos. No entanto, ESQUECEU de colocar esta citação nas referências do seu trabalho, uma falha imperdoável para um investigador de respeito da Ravel / COPPE / UFRJ. A corzinha dos gráficos gerados pelo meu programa é única e não deixa dúvidas. Confira se a vó está mentindo...
Texto publicado pela primeira vez na Aldeia em 3 de Setembro de 2002.