Для проведения массовых обработок текста под системой Windows необходимо наличие Powershell (установлен по умолчание в любой Windows после Win7 SP1).
Вам необходимо скачать файл sendall.cmd в папку, содержащую тексты в .txt формате и запустить его (для работы скрипта необходим доступ в интернет). Результат работы будет помещен в файл c тем же именем и приставкой res_.
Или вы можете применить скрипт, аналогичный следующим:
PowerShell
$files = Get-ChildItem *.txt -Name
foreach ($file in $files) {
$data = `Get-Content -encoding UTF8 $file
Invoke-WebRequest -URI http://phonotext.syllabica.com/statistic?lng=ru -METHOD POST -Body @{filter="0,10";filter_r="0,10000";text="$data"} -OutFile res/$file
}
Linux Bash
for f in `ls *.txt`
do
wget -O ./res/$f --post-data "filter=0,10&filter_r=0,100000&text=`cat $f`" http://phonotext.syllabica.com/statistic?lng=ru 2> /dev/null
done
Обязательно: файлы должны быть текстовыми (.doc и подобные не подойдут)и в формате UTF8 измените параметры фильтра на свои.
Результаты содержат: картины повторов для каждого файла в отдельности.
Картина повторов представлена два раза, в различных форматах:
Первый – номер повтора [суммарный ИСА-1; средний ИСА-1] собственно повторы;
Второй – номер повтора: номера букв.