link0ff: Juri (juri)
link0ff ([personal profile] link0ff) wrote2009-09-14 07:36 pm

Vocabulary

Словарь Эллочки-людоедки составляет 30 слов, негра из племени "Мумбо-Юмбо" - 300 слов, базовый английский - 850 слов, а по данным сборников малоизвестных фактов средний словарный запас составляет 5000 слов. Интересно было проверить, и вот что получилось:

cat sent-mail
 | grepmail -B
 | egrep -v "^From:|^Date:|^Subject:|^>"
 | perl -lne 'print unless (/^Content/../^-- /)'
 | tr -cs '[:alnum:]' '[\n*]'
 | tr '[:upper:]' '[:lower:]'
 | sort
 | uniq -c
 | sort -nr
 | cut -c 9-
 | grep -v [0-9]
 | sort
 | comm -12 - /usr/share/dict/american-english
 | wc -l

5129
Для сравнения: словарный запас Бэкона составляет 8000 слов, а Шекспира 20000 слов.

[identity profile] alogic.livejournal.com 2009-10-04 06:41 pm (UTC)(link)
А что означает
/^Content/../^-- /
?

[identity profile] link0ff.livejournal.com 2009-10-04 07:29 pm (UTC)(link)
Диапазон строк между этими регулярными выражениями, т.е. не печатаются MIME-вложения, который начинаются с "Content" и до подписи "-- ". Вот за такую краткость мне Перл и нравится.