Выгрузим из него всю лексику, прогоним по частотности и обнаружим, что там всего-навсего.... ~13.000 слов!!!
Количество слов еще мало о чем говорит. Надо делать выборку по частоте использования каждого из этих слов. Некоторые, возможно, только в одной серии встречались. Плюс, учти, что имена собственные это тоже слова. Т.е. любое имя человека, название страны, города, океана, моря, реки и т.д. тоже входит в эти 13к но вряд ли вызовет проблемы у постороннего человека в том, чтобы понять, о чем идет речь. Особенно с учетом того, что имена собственные, обычно, не переводятся и звучат более-менее одинаково в разных языках.
Максим вы правы, тут много нюансов, но я весь пост описал образно, даже нейронки сильно мучить не стал, возможно и нарыл бы какие-нибудь исследования. Но по факту оно не требуется, практика показывает, что речевая база для разговорного это 4000-5000 слов, что подтверждается сертификацией CEFR, а также стандартами IELTS и TOEFL. Смысл поста был только одном, показать, что 500-800 волшебных слов это байки.
А словарь Эллочки Людоедочки составлял 30 слов.
Хо хо
Жаль, теперь такие посты не скачать. У бота он спросил, блядь... :3
Выгрузим из него всю лексику, прогоним по частотности и обнаружим, что там всего-навсего.... ~13.000 слов!!!
Количество слов еще мало о чем говорит. Надо делать выборку по частоте использования каждого из этих слов. Некоторые, возможно, только в одной серии встречались. Плюс, учти, что имена собственные это тоже слова. Т.е. любое имя человека, название страны, города, океана, моря, реки и т.д. тоже входит в эти 13к но вряд ли вызовет проблемы у постороннего человека в том, чтобы понять, о чем идет речь. Особенно с учетом того, что имена собственные, обычно, не переводятся и звучат более-менее одинаково в разных языках.
Максим вы правы, тут много нюансов, но я весь пост описал образно, даже нейронки сильно мучить не стал, возможно и нарыл бы какие-нибудь исследования. Но по факту оно не требуется, практика показывает, что речевая база для разговорного это 4000-5000 слов, что подтверждается сертификацией CEFR, а также стандартами IELTS и TOEFL. Смысл поста был только одном, показать, что 500-800 волшебных слов это байки.