A Aldeia Numaboa ancestral ainda está disponível para visitação. É a versão mais antiga da Aldeia que eu não quis simplesmente descartar depois de mais de 10 milhões de pageviews. Como diz a Sirley, nossa cozinheira e filósofa de plantão: "Misericórdia, ai que dó!"

Se você tiver curiosidade, o endereço é numaboa.net.br.

Leia mais...

Criptografia Numaboa

Frequência de ocorrência de letras no Português

Dom

28

Ago

2005


00:56

(31 votos, média 4.45 de 5) 


Para variar, por mais que eu procurasse, não encontrei referências na web sobre a frequência de ocorrência de letras no Português do Brasil. Encontra-se análises de frequência para o Inglês, o Alemão, o Francês, o Espanhol e até para o Latim. Mas para o Português... sad

Se não tem (ou não acho), então mãos à obra: fiz um pequeno programa em Delphi (estava com preguiça e com pressa...) que faz a análise de textos em ASCII puro. O programa usa a tecnologia de streaming de memória, o que permite a leitura e a análise de textos muito longos (acima da limitação de 32 Kb do memo do Delphi). Este programa, chamado Frequência NumaBoa, está disponível para download na Seção de Downloads - categoria Criptologia - Criptoanálise.

Os resultados que obtive utilizando a "tecnologia de ponta" da Aldeia são apresentados a seguir.

Ensaio de Frequências

Como ensaio estatístico, usei 6 textos de autores conhecidos e de épocas diferentes. Todos os textos são de domínio público (sem © copyright) e podem ser encontrados com facilidade na Internet para download.

Os textos foram analisados transformado-se vogais acentuadas (á, ã, ô,...) em vogais normais e o C cedilha em C.

  1. A Profissão de Jacques Pedreira, de João do Rio, com 49.958 palavras e 232.882 letras.
  2. Memórias Póstumas de Brás Cubas (50 primeiros capítulos), de Machado de Assis, com 26.326 palavras e 115.580 letras.
  3. Contos Gauchescos, de João Simões Lopes Neto, com 33.013 palavras e 143.520 letras.
  4. Obras Selecionadas de Rui Barbosa, com os textos "A Emancipação Progride" e "Pelos Escravos! Às Senhoras Baianas", com 4.781 palavras e 23.121 letras.
  5. Os Bruzundangas, de Lima Barreto, com 41.633 palavras e 200.581 letras.
  6. Texto lido na cerimônia de encerramento do Fórum Social Mundial 2002, de Saramago, com 2.053 palavras e 9.827 letras. Este, o único autor português, para por um pouco de tempero na análise.

No total, foram analisadas 157.764 palavras com 725.511 letras - uma amostra significante para dar consistência aos resultados.

Frequência das letras

Ordem alfabética
Histograma por
Ordem Alfabética
Letra Freq.% Letra Freq.%
A 14.63 N 5.05
B 1.04 O 10.73
C 3.88 P 2.52
D 4.99 Q 1.20
E 12.57 R 6.53
F 1.02 S 7.81
G 1.30 T 4.34
H 1.28 U 4.63
I 6.18 V 1.67
J 0.40 W 0.01
K 0.02 X 0.21
L 2.78 Y 0.01
M 4.74 Z 0.47
Ordem de frequência
Histograma por
Ordem de Frequência

Características do Português do Brasil

  • O comprimento médio das palavras em Português do Brasil é de 4.53 letras.
  • Quando as letras são ordenadas pela frequência, formam grupos bem definidos:
    1. A, E, O
    2. S, R, I
    3. N, D, M, U, T, C
    4. L, P, V, G, H, Q, B, F
    5. Z, J, X, K, W, Y
Letras Freq.
6 vogais: A, E, I, O, U, (Y) 48.75 %
20 consoantes
   5 de frequência alta: S, R, N, D, M 49.12 %
   10 de frequência média: T, C, L, P, V, G, H, Q, B, F 21.03 %
   6 de frequência baixa: Z, J, X, K, W 1.10 %
100.00 %
  • As vogais A, E, I, O, U e as consoantes S, R, N, D, M formam mais de 3/4 dos textos em Português.
  • A média de vogais a cada 10 letras é de 4.88

Distribuição da frequência uniliteral - DFU

frequência 15 13 11 8 7 6 5 5 5 5 4 4 3 3 2 1 1 1 1 1 0 0 0 0 0 0
Letra A E O S R I N D M U T C L P V G H Q B F Z J X H Y W

DIGRAMAS E TRIGRAMAS MAIS FREQUENTES

DE 1.76
RA 1.67
ES 1.65
OS 1.51
AS 1.49
DO 1.41
AR 1.33
CO 1.31
EN 1.23
QU 1.20
ER 1.18
DA 1.17
RE 1.14
CA 1.11
TA 1.10
SE 1.08
NT 1.08
MA 1.06
UE 1.05
TE 1.05
QUE 0.96
ENT 0.56
COM 0.47
NTE 0.44
EST 0.34
AVA 0.34
ARA 0.33
ADO 0.33
PAR 0.30
NDO 0.30
NAO 0.30
ERA 0.30
AND 0.30
UMA 0.28
STA 0.28
RES 0.27
MEN 0.27
CON 0.27
DOS 0.25
ANT 0.25
20 Digramas mais frequentes
(em 100 letras)
20 Trigramas mais frequentes
(em 100 letras)

Letras iniciais e finais

Letras D A E C P S O M N Q T F U V L R B I G J H Z K X W Y
Iniciais 12 11 11 8 7 6 6 6 5 4 4 3 3 3 2 2 2 2 2 1 1 - - - - -

Letras A O E S M R U I L Z D T H N C Y B X V K G F P W Q J
Finais 70 65 60 48 21 14 10 5 4 2 - - - - - - - - - - - - - - - -

PALAVRAS CURTAS MAIS FREQUENTES

1 letra em 100 letras
E 0.88
A 0.84
O 0.71
2 letras em 100 letras
DE 0.82
UM 0.31
SE 0.30
DA 0.27
OS 0.25
DO 0.25
AS 0.19
EM 0.17
NO 0.14
NA 0.12
ME 0.11
AO 0.10
EU 0.07
SO 0.05
LA 0.05
JA 0.05
HA 0.04
3 letras em 100 letras
QUE 0.63
NAO 0.29
UMA 0.21
COM 0.21
ERA 0.14
POR 0.12
MAS 0.11
DOS 0.11
LHE 0.09
FOI 0.07
ELE 0.07
DAS 0.07
SUA 0.06
SEU 0.06
SEM 0.05
SER 0.04
NEM 0.04
MEU 0.04
ELA 0.04
ATE 0.04

OBSERVAÇÕES

O textos para esta análise foram obtidos dos sites abaixo:

Em 17.03.07 a Isis me enviou um e-mail com um link para um trabalho do Bruno da Rocha Braga ( O endereço de e-mail address está sendo protegido de spambots. Você precisa ativar o JavaScript enabled para vê-lo. ), Análise de Freqüências de Línguas publicado em 24 de março de 2003, que complementa este texto. Fui conferir a indicação e, para minha surpresa, o cara usou um programa da minha autoria (que pode ser baixado na seção de downloads) para realizar seus experimentos. No entanto, ESQUECEU de colocar esta citação nas referências do seu trabalho, uma falha imperdoável para um investigador de respeito da Ravel / COPPE / UFRJ. A corzinha dos gráficos gerados pelo meu programa é única e não deixa dúvidas. Confira se a vó está mentindo...


Texto publicado pela primeira vez na Aldeia em 3 de Setembro de 2002.

капитал mfxхорошие кисти для макияжалобановский депутатпродажа видеокамерыlenovo ноутбукалександр лобановский жена харьков лобановский

Informações adicionais