Для проведения массовых обработок текста под системой Windows необходимо наличие Powershell (установлен по умолчание в любой Windows после Win7 SP1).
Вам необходимо скачать файл sendall.cmd в папку, содержащую тексты в .txt
формате и запустить его (для работы скрипта необходим доступ в интернет). Результат работы будет помещен в файл c тем же именем и приставкой res_
.
Или вы можете применить скрипт, аналогичный следующим:
PowerShell
$files = Get-ChildItem *.txt -Name foreach ($file in $files) { $data = `Get-Content -encoding UTF8 $file Invoke-WebRequest -URI http://phonotext.syllabica.com/statistic?lng=ru -METHOD POST -Body @{filter="0,10";filter_r="0,10000";text="$data"} -OutFile res/$file }Linux Bash
for f in `ls *.txt` do wget -O ./res/$f --post-data "filter=0,10&filter_r=0,100000&text=`cat $f`" http://phonotext.syllabica.com/statistic?lng=ru 2> /dev/null doneОбязательно: файлы должны быть текстовыми (
.doc
и подобные не подойдут)и в формате UTF8 измените параметры фильтра на свои.
Результаты содержат: картины повторов для каждого файла в отдельности.
Картина повторов представлена два раза, в различных форматах:
Первый – номер повтора [суммарный ИСА-1; средний ИСА-1] собственно повторы;
Второй – номер повтора: номера букв.