Диаграмма частоты использования букв в русском языке. Анализ текстов. Частотные характеристики текстовых сообщений

В данной статье мы начнем обсуждение чрезвычайно интересной темы - применение статистики для анализа текстовой информации. Заметим, что применение статистики для анализа текстов - традиционная задача.

Вначале мы приведем некоторые интересные факты относительно частоты встречаемости букв и их сочетаний в разных языках (подробнее см. книгу ). В последующих статьях покажем, как применять более сложные методы анализа и графического представления.

Частотные характеристики текстовых сообщений

Итак, текст состоит из слов, слова из букв. Количество различных букв в каждом языке ограничено и буквы могут быть просто перечислены. Важными характеристиками текста являются повторяемость букв, пар букв (биграмм) и вообще m -ок (m -грамм), сочетаемость букв друг с другом, чередование гласных и согласных и некоторые другие. Замечательно, что эти характеристики являются достаточно устойчивыми. Вопрос "почему" мы оставляем за кадром.

Используя систему STATISTICA Вы можете проверить эти закономерности, например, в текстах Интернет.

Идея состоит в подсчете чисел вхождений каждой n m возможных m -грамм в достаточно длинных открытых текстах T =t 1 t 2 …t l , составленных из букв алфавита {a 1 , a 2 , ..., a n }. При этом просматриваются подряд идущие m -граммы текста:

t 1 t 2 ...t m , t 2 t 3 ... t m+1 , ..., t i-m+1 t l-m+2 ...t l .

Если – число появлений m -граммы a i1 a i2 ...a im в тексте T , а L – общее число подсчитанных m -грамм, то опыт показывает, что при достаточно больших L частоты

для данной m -граммы мало отличаются друг от друга.

В силу этого, относительную частоту (1) считают приближением вероятности P (a i1 a i2 ...a im ) появления данной m -граммы в случайно выбранном месте текста (такой подход принят при статистическом определении вероятности).

Ниже приводится таблицы частот букв (в процентах) ряда европейских языков. Данные заимствованы из книги .

Буква алфавита Французский язык Немецкий язык Английский язык Испанский язык Итальянский язык
A 7.68 5.52 7.96 12.90 11.12
B 0.80 1.56 1.60 1.03 1.07
C 3.32 2.94 2.84 4.42 4.11
D 3.60 4.91 4.01 4.67 3.54
E 17.76 19.18 12.86 14.15 11.63
F 1.06 1.96 2.62 0.70 1.15
G 1.10 3.60 1.99 1.00 1.73
H 0.64 5.02 5.39 0.91 0.83
I 7.23 8.21 7.77 7.01 12.04
J 0.19 0.16 0.16 0.24 -
K - 1.33 0.41 - -
L 5.89 3.48 3.51 5.52 5.95
M 2.72 1.69 2.43 2.55 2.65
N 7.61 10.20 7.51 6.20 7.68
O 5.34 2.14 6.62 8.84 8.92
P 3.24 0.54 1.81 3.26 2.66
Q 1.34 0.01 0.17 1.55 0.48
R 6.81 7.01 6.83 6.95 6.56
S 8.23 7.07 6.62 7.64 4.81
T 7.30 5.86 9.72 4.36 7.07
U 6.05 4.22 2.48 4.00 3.09
V 1.27 0.84 1.15 0.67 1.67
W - 1.38 1.80 - -
X 0.54 - 0.17 0.07 -
Y 0.21 - 1.52 1.05 -
Z 0.07 1.17 0.05 0.31 1.24

Некоторая разница значений частот в приводимых в различных источниках таблицах объясняется тем, что частоты существенно зависят не только от длины текста, но и от его характера. Например, в технических текстах редкая буква Ф может стать довольно частой в связи с частым использованием таких слов, как функция, дифференциал, диффузия, коэффициент и т.п.

Еще большие отклонения от нормы в частоте употребления отдельных букв наблюдаются в некоторых художественных произведениях, особенно в стихах. Поэтому для надежного определения средней частоты букв желательно иметь набор различных текстов, заимствованных из различных источников. Вместе с тем, как правило, подобные отклонения незначительны, и в первом приближении ими можно пренебречь.

Наглядное представление о частотах букв дает диаграмма встречаемости. Так, для ангийского языка, в соответствии с таблицей, такая диаграмма изображена на рис.1. Для ее построения мы импользовали систему STATISTICA .

Для русского языка частоты (в порядке убывания) знаков алфавита, в котором отождествлены E c Ё , Ь с Ъ , а также имеется знак пробела (-) между словами, приведены в следующей таблице (см. ).

-
0.175
О
0.090
Е, Ё
0.072
А
0.062
И
0.062
Т
0.053
Н
0.053
С
0.045
Р
0.040
В
0.038
Л
0.035
К
0.028
М
0.026
Д
0.025
П
0.023
У
0.021
Я
0.018
Ы
0.016
З
0.016
Ь, Ъ
0.014
Б
0.014
Г
0.013
Ч
0.012
Й
0.010
Х
0.009
Ж
0.007
Ю
0.006
Ш
0.006
Ц
0.004
Щ
0.003
Э
0.003
Ф
0.002

На основании таблицы получаем следующую диаграмму частот (рис.2).

Имеется мнемоническое правило запоминания десяти наиболее частых букв русского алфавита. Эти буквы составляют нелепое слово СЕНОВАЛИТР. Можно также предложить аналогичный способ запоминания частых букв английского языка, например с помощью слова TETRIS-HONDA (см. таблицу).

Устойчивыми являются также частотные характеристики биграмм, триграмм и четырехграмм осмысленных текстов.

Приведем таблицы частот биграмм для русского и английского языков (таблицы заимствованы из книги ). Для удобства они разбиты на четыре части по следующей схеме:

Часть1 Часть2
Часть3 Часть4

Часть 1

А Б В Г Д Е Ж З И Й К Л М Н О П
А 2 12 35 8 14 7 6 15 7 7 19 27 19 45 5 11
Б 5 9 1 6 6 2 21
В 35 1 5 3 3 32 2 17 7 10 3 9 58 6
Г 7 3 3 5 1 5 1 50
Д 25 3 1 1 29 1 1 13 1 5 1 13 22 3
Е 2 9 18 11 27 7 5 10 6 15 13 35 24 63 7 16
Ж 5 1 6 12 5 6
З 35 1 7 1 5 3 4 2 1 2 9 9 1
И 4 6 22 5 10 21 2 23 19 11 19 21 20 32 8 13
Й 1 1 4 1 3 1 2 4 5 1 2 7 9 7
К 24 1 4 1 4 1 1 26 1 4 1 2 66 2
Л 25 1 1 1 1 33 2 1 36 1 2 1 8 30 2
М 18 2 4 1 1 21 1 2 23 3 1 3 7 19 5
Н 54 1 2 3 3 34 58 3 1 24 67 2
О 1 28 84 32 47 15 7 18 12 29 19 41 38 30 9 18
П 7 15 4 9 1 46

Часть 2

Р С Т У Ф Х Ц Ч Ш Щ Ы Ь Э Ю Я
А 26 31 27 3 1 10 6 7 10 1 2 6 9
Б 8 1 6 1 11 2
В 6 19 6 7 1 1 2 4 1 18 1 2 3
Г 7 2
Д 6 8 1 10 1 1 1 5 1 1
Е 39 37 33 3 1 8 3 7 3 3 1 1 2
Ж 1
З 3 1 2 4 4
И 11 29 29 3 1 17 3 11 1 1 1 3 17
Й 3 10 2 1 3 2
К 10 3 7 10 1
Л 3 1 6 4 1 3 20 4 9
М 2 5 3 9 1 2 5 1 1 3
Н 1 9 9 7 1 5 2 36 3 5
О 43 50 39 3 2 5 2 12 4 3 2 3 2
П 41 1 6 2 2

Часть 3

А Б В Г Д Е Ж З И Й К Л М Н О П
Р 55 1 4 4 3 37 3 1 24 3 1 3 7 56 2
С 8 1 7 1 2 25 6 40 13 3 9 27 11
Т 35 1 27 1 3 31 1 28 5 1 1 11 56 4
У 1 4 4 4 11 2 6 3 2 8 5 5 5 1 5
Ф 2 2 2 1
Х 4 1 4 1 3 1 2 3 4 3 3 4 18 5
Ц 3 7 10 2 1
Ч 12 23 13 2 6
Ш 5 11 14 1 2 2 2
Щ 3 8 6 1
Ы 1 9 1 3 12 2 4 7 3 6 6 3 2 10
Ь 2 4 1 1 2 2 2 6 3 13 2 4
Э 1 1
Ю 2 1 2 1 3 1 1 1 1 1 3
Я 1 3 9 1 3 3 1 5 3 2 3 3 4 6 3 6

Часть 4

Р С Т У Ф Х Ц Ч Ш Щ Ы Ь Э Ю Я
Р 1 5 9 16 1 1 1 2 8 3 5
С 4 11 82 6 1 1 2 2 1 8 17
Т 26 18 2 10 1 11 21 4
У 7 14 7 1 8 3 2 9 1
Ф 1 1
Х 3 4 2 2 1 1
Ц 1 1
Ч 7 1 1 1
Ш 1 1
Щ 1
Ы 3 9 4 1 16 1 2
Ь 1 11 3 1 4 1 3 1
Э 1 9
Ю 1 1 7 1 1 4
Я 3 6 10 2 1 4 1 1 1 1 1

Хорошие таблицы k -грамм легко получить, используя тексты электронных версий многих книг, содержащихся на CD-дисках.

Для получения более точных сведений об открытых текстах можно строить и анализировать таблицы k -грамм при k >2, однако для учебных целей вполне достаточно ограничиться биграммами. Неравномерность k -грамм (и даже слов) тесно связана с характерной особенностью открытого текста – наличием в нем большого числа повторений отдельных фрагментов текста: корней, окончаний, суффиксов, слов и фраз. Так, для русского языка такими привычными фрагментами являются наиболее частые биграммы и триграммы:

СТ, НО, ЕН, ТО, НА, ОВ, НИ, РА, ВО, КО
СТО, ЕНО, НОВ, ТОВ, ОВО, ОВА

Полезной является информация о сочетаемости букв, то есть о предпочтительных связях букв друг с другом, которую легко извлечь из таблиц частот биграмм.

Имеется в виду таблица, в которой слева и справа от каждой буквы расположены наиболее предпочтительные "соседи" (в порядке убывания частоты соответствующих биграмм). В таких таблицах обычно указывается также доля гласных и согласных букв (в процентах), предшествующих (или следующих за) данной букве.

Сочетаемость букв русского языка:

Г С Слева Справа Г С
3 97 л, д, к, т, в, р, н A л, н, с, т, р, в, к, м 12 88
80 20 я, е, у, и, а, о Б о, ы, е, а, р, у 81 19
68 32 я, т, а, е, и, о В о, а, и, ы, с, н, л, р 60 40
78 22 р, у, а, и, е, о Г о, а, р, л, и, в 69 31
72 28 р, я, у, а, и, е, о Д е, а, и, о, н, у, р, в 68 32
19 81 м, и, л, д, т, р, н Е н, т, р, с, л, в, м, и 12 88
83 17 р, е, и, а, у, о Ж е, и, д, а, н 71 29
89 11 о, е, а, и З а, н, в, о, м, д 51 49
27 73 р, т, м, и, о, л, н И с, н, в, и, е, м, к, з 25 75
55 45 ь, в, е, о, а, и, с К о, а, и, р, у, т, л, е 73 27
77 23 г, в, ы, и, е, о, а Л и, е, о, а, ь, я, ю, у 75 25
80 20 я, ы, а, и, е, о М и, е, о, у, а, н, п, ы 73 27
55 45 д, ь, н, о Н о, а, и, е, ы, н, у 80 20
11 89 р, п, к, в, т, н О в, с, т, р, и, д, н, м 15 85
65 35 в, с, у, а, и, е, о П о, р, е, а, у, и, л 68 32
55 45 и, к, т, а, п, о, е Р а, е, о, и, у, я, ы, н 80 20
69 31 с, т, в, а, е, и, о С т, к, о, я, е, ь, с, н 32 68
57 43 ч, у, и, а, е, о, с Т о, а, е, и, ь, в, р, с 63 37
15 85 п, т, к, д, н, м, р У т, п, с, д, н, ю, ж 16 84
70 30 н, а, е, о, и Ф и, е, о, а, е, о, а 81 19
90 10 у, е, о, а, ы, и Х о, и, с, н, в, п, р 43 57
69 31 е, ю, н, а, и Ц и, е, а, ы 93 7
82 18 е, а, у, и, о Ч е, и, т, н 66 34
67 33 ь, у, ы, е, о, а, и, в Ш е, и, н, а, о, л 68 32
84 16 е, б, а, я, ю Щ е, и, а 97 3
0 100 м, р, т, с, б, в, н Ы л, х, е, м, и, в, с, н 56 44
0 100 н, с, т, л Ь н, к, в, п, с, е, о, и 24 76
14 86 с, ы, м, л, д, т, р, н Э н, т, р, с, к 0 100
58 42 ь, о, а, и, л, у Ю д, т, щ, ц, н, п 11 89
43 57 о, н, р, л, а, и, с Я в, с, т, п, д, к, м, л 16 84

При анализе сочетаемости букв друг с другом следует иметь в виду зависимость появления букв в открытом тексте от значительного числа предшествующих букв. Для анализа этих закономерностей используют понятие условной вероятности.

Наблюдения над открытыми текстами показывают, что для условных вероятностей выполняются неравенства p(a i1)≠p(a i1 /a i2) , p(a i1 /a i2)≠p(a i1 /a i2 a i3) ,....

Систематически вопрос о зависимости букв алфавита в открытом тексте от предыдущих букв исследовался известным русским математиком А. А. Марковым (1856 – 1922). Он доказал, что появления букв в открытом тексте нельзя считать независимыми друг от друга. В связи с этим А. А. Марковым отмечена еще одна устойчивая закономерность открытых текстов, связанная с чередованием гласных и согласных букв. Им были подсчитаны частоты встречаемости биграмм вида гласная-гласная (г , г ), гласная-согласная (г , с ), согласная-гласная (с , г ), согласная-согласная (с , с ) в русском тексте длиной в 10 5 знаков. Результаты подсчета отражены в следующей таблице:

Г С Всего
Г 6588 38310 44898
С 38296 16806 55102

Из этой таблицы видно, что для русского языка характерно чередование гласных и согласных, причем относительные частоты могут служить приближениями соответствующих условных и безусловных вероятностей:

p (г /с )≈0.663, p (с /г )≈0.872,
p (г )≈0.432, p (с )≈0.568.

После А. А. Маркова зависимость появления букв текста вслед за несколькими предыдущими исследовал методами теории информации К. Шеннон. Фактически им было показано, в частности, что такая зависимость ощутима на глубину приблизительно в 30 знаков, после чего она практически отсутствует.

Доля гласных букв в литературном тексте:

Приведенные выше закономерности имеют место для обычных "читаемых" открытых текстов, используемых при общении людей. Как уже отмечалось ранее, эти закономерности играют большую роль в криптоанализе. В частности, они используются при построении формализованных критериев на открытый текст, позволяющих применять методы математической статистики в задаче распознавания открытого текста в потоке сообщений. При использовании же специальных алфавитов требуются аналогичные исследования частотных характеристик "открытых текстов", возникающих, например, при межмашинном обмене информацией или в системах передачи данных. В этих случаях построение формализованных критериев на "открытый текст" – задача значительно более сложная.

В качестве примера приведем частотные характеристики букв английского алфавита, входящих в состав кода ASCII.

Помимо криптографии частотные характеристики открытых сообщений существенно используются и в других сферах. Например, клавиатура компьютера, пишущей машинки или линотипа – это замечательное воплощение идеи ускорения набора текста, связанное с оптимизацией расположения букв алфавита относительно друг друга в зависимости от частоты их применения.

Литература:

Алферов А.П. и др., "Криптография"

Яглом А.М., Яглом И.М., Вероятость и информация, М.: Наука, 1973.

Baudouin C., Elements de cryptographie / Ed. Pedone A. – Paris, 1939.

Friedman W. F., Callimahos D., Military cryptanalysis, Part i, Vol 2, Aegean Park Press, Laguna Hills CA, 1920.

Частотность слов может отражаться пометами - употребительное, малоупотребительное и т. д.

Аналогичным образом определяется частотность для букв. Бо́льшая частотность согласных на данном отрезке текста (например, в стихотворениях) получила название аллитерации . Высокие показатели частотности гласных называются ассонансом . Частотный анализ используется в криптографии для выявления наиболее частотных букв того или иного языка.

Частотность слов и букв являлась важнейшим инструментов криптоанализа в эпоху до повсеместного распространения блочных шифров .

Не следует путать термины частотность и частота .

Частотность букв русского языка

Статистика частотности букв русского языка (на материале НКРЯ):

ImageSize = width:400 height:400 PlotArea = top:20 bottom:50 right:20 left:20 AlignBars = late Colors =

Id:pl value:red legend:Гласные_ id:ao value:brightblue legend:Согласные_ id:gs value:yellow legend:Ни_те,_ни_другие id:ioao value:rgb(0,1,1) id:grid value:rgb(0.85,0.85,0.85) id:grid1 value:rgb(0.75,0.75,0.75) id:canvas value:rgb(0.95,0.95,0.95)

DateFormat = yyyy Period = from:0 till:11000 TimeAxis = orientation:horizontal ScaleMinor = unit:year increment:1000 start:0 gridcolor:grid BackgroundColors = canvas:white Legend = columns:3 left:50 top:24 columnwidth:90 BarData =

Barset:PM

Width:8 align:left fontsize:7 shift:(5,-3) anchor:till barset:PM from: 0 till: 7998 color:pl text:"а" from: 0 till: 1592 color:ao text:"б" from: 0 till: 4533 color:ao text:"в" from: 0 till: 1687 color:ao text:"г" from: 0 till: 2977 color:ao text:"д" from: 0 till: 8483 color:pl text:"е" from: 0 till: 13 color:pl text:"ё" from: 0 till: 940 color:ao text:"ж" from: 0 till: 1641 color:ao text:"з" from: 0 till: 7367 color:pl text:"и" from: 0 till: 1208 color:ao text:"й" from: 0 till: 3486 color:ao text:"к" from: 0 till: 4343 color:ao text:"л" from: 0 till: 3203 color:ao text:"м" from: 0 till: 6700 color:ao text:"н" from: 0 till: 10983 color:pl text:"о" from: 0 till: 2804 color:ao text:"п" from: 0 till: 4746 color:ao text:"р" from: 0 till: 5473 color:ao text:"с" from: 0 till: 6318 color:ao text:"т" from: 0 till: 2615 color:pl text:"у" from: 0 till: 267 color:ao text:"ф" from: 0 till: 966 color:ao text:"х" from: 0 till: 486 color:ao text:"ц" from: 0 till: 1450 color:ao text:"ч" from: 0 till: 718 color:ao text:"ш" from: 0 till: 361 color:ao text:"щ" from: 0 till: 37 color:gs text:"ъ" from: 0 till: 1898 color:pl text:"ы" from: 0 till: 1735 color:gs text:"ь" from: 0 till: 331 color:pl text:"э" from: 0 till: 639 color:pl text:"ю" from: 0 till: 2001 color:pl text:"я"

Pos:(340,45) textcolor:black fontsize:6 text:0,1

At:1000 color:grid1 width:1 at:2000 color:grid1 width:1 at:3000 color:grid1 width:1 at:4000 color:grid1 width:1 at:5000 color:grid1 width:1 at:6000 color:grid1 width:1 at:7000 color:grid1 width:1 at:8000 color:grid1 width:1 at:9000 color:grid1 width:1 at:10000 color:grid1 width:1

ранг буква употреблений частотность
1 о 52295949 0,10983
2 е 40392978 0,08483
3 а 38081816 0,07998
4 и 35075552 0,07367
5 н 31900994 0,067
6 т 30084462 0,06318
7 с 26058590 0,05473
8 р 22595850 0,04746
9 в 21582499 0,04533
10 л 20678280 0,04343
11 к 16599539 0,03486
12 м 15252377 0,03203
13 д 14173134 0,02977
14 п 13349597 0,02804
15 у 12452612 0,02615
16 я 9528713 0,02001
17 ы 9036813 0,01898
18 ь 8263123 0,01735
19 г 8031521 0,01687
20 з 7811723 0,01641
21 б 7579289 0,01592
22 ч 6904749 0,0145
23 й 5753983 0,01208
24 х 4597146 0,00966
25 ж 4476464 0,0094
26 ш 3420179 0,00718
27 ю 3044673 0,00639
28 ц 2314208 0,00486
29 щ 1719607 0,00361
30 э 1573696 0,00331
31 ф 1268926 0,00267
32 ъ 175908 0,00037
33 ё 63623 0,00013

См. также

Напишите отзыв о статье "Частотность"

Примечания

Ссылки

  • (англ.)
  • Пиперски А. . ПостНаука (24.12.2015).
  • en:Most common words in English (англ.)

Отрывок, характеризующий Частотность

– На записку вашу мной положена резолюция и переслана в комитет. Я не одобряю, – сказал Аракчеев, вставая и доставая с письменного стола бумагу. – Вот! – он подал князю Андрею.
На бумаге поперег ее, карандашом, без заглавных букв, без орфографии, без знаков препинания, было написано: «неосновательно составлено понеже как подражание списано с французского военного устава и от воинского артикула без нужды отступающего».
– В какой же комитет передана записка? – спросил князь Андрей.
– В комитет о воинском уставе, и мною представлено о зачислении вашего благородия в члены. Только без жалованья.
Князь Андрей улыбнулся.
– Я и не желаю.
– Без жалованья членом, – повторил Аракчеев. – Имею честь. Эй, зови! Кто еще? – крикнул он, кланяясь князю Андрею.

Ожидая уведомления о зачислении его в члены комитета, князь Андрей возобновил старые знакомства особенно с теми лицами, которые, он знал, были в силе и могли быть нужны ему. Он испытывал теперь в Петербурге чувство, подобное тому, какое он испытывал накануне сражения, когда его томило беспокойное любопытство и непреодолимо тянуло в высшие сферы, туда, где готовилось будущее, от которого зависели судьбы миллионов. Он чувствовал по озлоблению стариков, по любопытству непосвященных, по сдержанности посвященных, по торопливости, озабоченности всех, по бесчисленному количеству комитетов, комиссий, о существовании которых он вновь узнавал каждый день, что теперь, в 1809 м году, готовилось здесь, в Петербурге, какое то огромное гражданское сражение, которого главнокомандующим было неизвестное ему, таинственное и представлявшееся ему гениальным, лицо – Сперанский. И самое ему смутно известное дело преобразования, и Сперанский – главный деятель, начинали так страстно интересовать его, что дело воинского устава очень скоро стало переходить в сознании его на второстепенное место.
Князь Андрей находился в одном из самых выгодных положений для того, чтобы быть хорошо принятым во все самые разнообразные и высшие круги тогдашнего петербургского общества. Партия преобразователей радушно принимала и заманивала его, во первых потому, что он имел репутацию ума и большой начитанности, во вторых потому, что он своим отпущением крестьян на волю сделал уже себе репутацию либерала. Партия стариков недовольных, прямо как к сыну своего отца, обращалась к нему за сочувствием, осуждая преобразования. Женское общество, свет, радушно принимали его, потому что он был жених, богатый и знатный, и почти новое лицо с ореолом романической истории о его мнимой смерти и трагической кончине жены. Кроме того, общий голос о нем всех, которые знали его прежде, был тот, что он много переменился к лучшему в эти пять лет, смягчился и возмужал, что не было в нем прежнего притворства, гордости и насмешливости, и было то спокойствие, которое приобретается годами. О нем заговорили, им интересовались и все желали его видеть.
На другой день после посещения графа Аракчеева князь Андрей был вечером у графа Кочубея. Он рассказал графу свое свидание с Силой Андреичем (Кочубей так называл Аракчеева с той же неопределенной над чем то насмешкой, которую заметил князь Андрей в приемной военного министра).
– Mon cher, [Дорогой мой,] даже в этом деле вы не минуете Михаил Михайловича. C"est le grand faiseur. [Всё делается им.] Я скажу ему. Он обещался приехать вечером…
– Какое же дело Сперанскому до военных уставов? – спросил князь Андрей.
Кочубей, улыбнувшись, покачал головой, как бы удивляясь наивности Болконского.
– Мы с ним говорили про вас на днях, – продолжал Кочубей, – о ваших вольных хлебопашцах…
– Да, это вы, князь, отпустили своих мужиков? – сказал Екатерининский старик, презрительно обернувшись на Болконского.

Частота применения букв в русском языке

А вы знаете, что некоторые буквы алфавита встречаются в словах чаще остальных...Причем частота употребляемости гласных букв в языке выше, чем согласных.

Какие буквы русского алфавита чаще или реже всего встречаются в словах, используемых для написания текста?

Выявлением и исследованием общих закономерностей занимается статистика. С помощью этого научного направления можно ответить на поставленный выше вопрос, сосчитав количество каждой из букв русского алфавита, применяемых слов, выбрав отрывок из произведений различных авторов. Для собственного интереса и ради занятия от скуки каждый может проделать это самостоятельно. Я же сошлюсь на статистику уже проведенного исследования...

Русский алфавит кириллический. За время своего существования он пережил несколько реформ, в результате которых сложилась современная русская азбучная система, включающая 33 буквы.

о — 9.28%
а — 8.66%
е — 8.10%
и — 7.45%
н — 6.35%
т — 6.30%
р — 5.53%
с — 5.45%
л — 4.32%
в — 4.19%
к — 3.47%
п — 3.35%
м — 3.29%
у — 2.90%
д — 2.56%
я — 2.22%
ы — 2.11%
ь — 1.90%
з — 1.81%
б — 1.51%
г — 1.41%
й — 1.31%
ч — 1.27%
ю — 1.03%
х — 0.92%
ж — 0.78%
ш — 0.77%
ц — 0.52%
щ — 0.49%
ф — 0.40%
э — 0.17%
ъ — 0.04%

Русская буква, имеющая наибольшую частотность в использовании - это гласная «О », как здесь уже справедливо предположили. Есть и характерные примеры, наподобие «ОбОрОнОспОсОбнОсти » (7 штук в одном слове и ничего экзотического или удивительного; очень привычно для русского языка). Высокая популярность буквы «О» во многом объясняется таким грамматическим явлением, как полногласие. То есть, «холод» вместо «хлад» и «мороз» вместо «мраз».

А в самом начале слов чаще всего встречается согласная буква «П ». Это лидерство также уверенно и безоговорочно. Скорее всего, объяснение даёт большое количество приставок на букву «П»: пере-, пре-, пред-, при-, про- и другие.

Частота использования букв основа криптоанализа.

Самой распространённой буквой в алфавите русского языка можно смело назвать «о». Не «а», хотя все дети учат первые слова именно с этой буквой: «мама», «папа» или «дай». Не «и», хотя может показаться, что мы часто употребляем ее как соединительный союз.

Как показывают данные, именно буква «о» имеет частотность, превышающую 0, 1%, по сравнению с другими гласными буквами алфавита, у которых частотность составляет, например, 0,07-0,08%, это немало

Среди согласных на первом месте стоит буква «н».

Такие данные получают путем анализа частотности в НКРЯ – Национальном корпусе русского языка, по специальной формуле. НКРЯ – это электронный архив письменных и устных текстов, который состоит примерно из 230 миллионов словоупотреблений.

Рассматривая самую популярную букву нашего алфавита, стоит упомянуть об интересном явлении, которое называется «тавтограмма». Это своеобразная литературная разминка, где нужно составить рассказ или стихотворение, начинающееся с одной и той же буквы. Кстати, буква, с которой начинается больше всего слов русского языка (не путайте с частотностью употребления) - это «п», но среди гласных несомненное лидерство принадлежит нашему сегодняшнему фавориту.

«Одиноко. Очень. Осколки обаяния осыпались осенним однообразием. Олимп остался отдаленной отдушиной. Очень отдаленной. Остались обиды, опрометчивые определения оттаявшей оттепели, обусловленные огнем осязания. Остальное оказалось отрицательным, отторгнутым, обманутым обществом. Отпрыски осени оступились, облетели остатками озерных очей. Одни окна остались открытыми. Обозленные отпечатки отдельных омонимов омрачены отвергнутыми одеждами олицетворения. Оранжевые оттенки облепихи очерчены огромным отражением одиночества. Остальное – окостенение, оцепенение обреченности. Острова обросли обетами от очерков о определенности. Остывающие обрезки ольхи образовали одноименные окружности, обусловленные охрипшими окриками. Официальное обернулось отражением общего, отменив отрицательные определенности. Осевшие образы обидчиво объясняли осеннюю околесицу, обзывая обратное обманом. Отроки отчаянно обрисовывали очарованную осень, отрицая объективное отношение… Осень облетала оранжевыми осколками облепихи, оставляя осточертевшие оспаривания одиноким ответам…»

Забавно, правда? Не такая уж и чепуха выходит:)

Кстати, в английском языке самой распространенной буквой является “е". А согласной – “t"

Ну, и тавтограмма на английском языке:

Minerva-like majestic Mary moves.

Law, Latin, Liberty, learned Lucy loves.

Eliza"s elegance each eye espies.

Serenely silent Susan"s smiles surprise.

From fops, fools, flattery, fairest Fanny flies.

Какая буква чаще всего используется в русском языке? И как проще всего это узнать, и получил лучший ответ

Ответ от Виктор Единович[гуру]

Единственный правильный ответ! В своё время это любой типограф знал по опыту, какого шрифта (литеры) больше всего расходуется при наборе.
Виктор Единович
Просветленный
(38377)
Нет. Просто я - бывший учёный-энциклопедист...

Ответ от Elizaveta Ventsevich [гуру]
я думаю, что "А".


Ответ от Александра Лапикова [гуру]
по степени затёртости на клавиатуре у литератора


Ответ от ЁлаФка [гуру]
букаФка ААААААААААА))))


Ответ от BOBA BOBAHOB [гуру]
я так считаю что буква "Х" .-доказательства? прсто прогуляйтесь по улице


Ответ от * [эксперт]
чаще всего используют 3 буквы это У Й Х


Ответ от Џн [гуру]
наверное Ъ


Ответ от Дюсьмикеев Валерий [гуру]
Буква А



Ответ от [гуру]
Как все шутят. Конечно, буква О!!!


Ответ от Pavel Makagonov [гуру]
О, потом Е, потом И, потом А. Потом согласные Н, Т, С, Р, и т. д.
Пришлось посчитать по большому числу текстов. А хулиганам не верьте.


Ответ от Елена Стрэтберри [активный]
Конечно буква Р. Потому что она посередине клавиатуры находится!! ! 🙂


Ответ от Inga zajontz [гуру]
берём любой словарь, более всего слов на "п",после на "р",после на "о",после на "Т",в итоге самое характерное слово для русского простор и простота
по Далю


Ответ от Alexander Reiser [гуру]
Попробуйте угадать, какая из букв русского языка встречается чаще всего?
Буква О. Частота появления – 0.090. Т. е. в последовательности из 1000 букв, буква О будет встречаться в среднем 90 раз.
Какие буквы занимают лидирующие позиции, встречаются чаще всего?
Гласные. Именно они чаще всего встречаются в русском языке, делаю нашу речь «певучей» . Следом за О идут буквы Е и Ё (вместе, их не разделяют, т. к. при написании, часто теряют Ё). Частота появления – 0.072. За ними – буквы А и И. Частота появления каждой из них – 0.062.
Достаточно ли этого для того, чтобы декодировать текст? В принципе да, если мы уверены, что последовательность кодов содержит текст именно на русском языке в какой-то из известных или неизвестных нам кодировок. Но всегда есть некоторая вероятность, что предъявленная последовательность кодов никакого отношения к русскому языку не имеет. Чтобы убедиться в этом, надо воспользоваться частотным словарем слов русского языка.
Как вы полагаете, какое слово встречается в русском языке чаще всего?
Союз И, затем следуют столь же краткие части речи – В, НЕ, ОН, НА. Но чаще всего, конечно, будет встречаться пробел.
Декодируемый текст надо проверить на совпадение по частотному словарю. И только при более-менее полном совпадении можно говорить о том, что мы имеем дело текстом, написанном на русском языке.
Это дает 100% результат, если текст достаточно большой. Если же речь идет о нескольких словах, то частота букв (и тем более слов) может быть нарушена. Что делать в этом случае? Надо предложить читателю несколько вариантов на выбор. Декодировать текст по одной из гласных букв, которые встречаются чаще всего. Гласные! Они всегда будут встречаться чаще других букв. Если закодирован именно текст на русском языке, то успех гарантирован.