Фонотекст

Текст
Описание

Для проведения массовых обработок текста под системой Windows необходимо наличие Powershell (установлен по умолчание в любой Windows после Win7 SP1).

Вам необходимо скачать файл sendall.cmd в папку, содержащую тексты в .txt формате и запустить его (для работы скрипта необходим доступ в интернет). Результат работы будет помещен в файл c тем же именем и приставкой res_.

Или вы можете применить скрипт, аналогичный следующим:
PowerShell

$files = Get-ChildItem *.txt -Name
foreach ($file in $files) {
    $data = `Get-Content -encoding UTF8 $file
    Invoke-WebRequest -URI http://phonotext.syllabica.com/statistic?lng=ru -METHOD POST -Body @{filter="0,10";filter_r="0,10000";text="$data"} -OutFile res/$file
}

Linux Bash

for f in `ls *.txt`
do
    wget -O ./res/$f --post-data "filter=0,10&filter_r=0,100000&text=`cat $f`" http://phonotext.syllabica.com/statistic?lng=ru 2> /dev/null
done

Обязательно: файлы должны быть текстовыми (.doc и подобные не подойдут)
и в формате UTF8 измените параметры фильтра на свои.

Результаты содержат: картины повторов для каждого файла в отдельности.

Картина повторов представлена два раза, в различных форматах:
Первый – номер повтора [суммарный ИСА-1; средний ИСА-1] собственно повторы;
Второй – номер повтора: номера букв.