LINUX.ORG.RU

Требуется написать программу для автоматизации рутинной работы по проверке уникальности текстов в поисковых системах.

 


0

1

Есть список файлов html. Нужно убрать из него все теги, комментарии, стили css и наиболее распространенные символы html. Я пробовал такие команды в linux shell: for FILE in $(find . -name '*.html'); do sed -n '1h;2~1H;${g;s/<[^>]*>//g;p}' $FILE>>1; done find . -type f -name '*.html' -exec sed -e 's/<[^>]*>//g' {} \; но они выводят все в один новый файл, а нужно просто отредактировать существующие файлы.

Далее требуется написать скрипт, который будет проверять уникальность текста в поисковых системах при помощи сервиса text.ru. Для обхода ограничений сервиса нужно использовать список из <u>ipv6proxy</u> На входе должны быть текстовые файлы из указанного каталога, на выходе - файлы с указанным в именах файлов процентом уникальности. Итоговые файлы должны быть отсортированы по уникальности, таким образом, чтобы файлы с процентом уникальности от 0 до 70 сохранялись в каталог «копипаст», а остальные - в «уникальные». Файлы объёмом менее 500 символов текста нужно отбрасывать.

Программы должны работать на линуксе! Можно на linux shell, python, php, C, java - мне без разницы. Главное чтоб работало на линуксе на дешевых VDS. Можно на BrowserAutomationStudio или на iMacros, но так чтоб работало в линуксе. Пишите цены и сроки на E-mail: itownfeedback@yandex.ru



Последнее исправление: softf4288 (всего исправлений: 1)

Ну так «отрендери» html любым парсером «в текст» и работай как с обычным текстом.

psv1967 ★★★★★
()
Вы не можете добавлять комментарии в эту тему. Тема перемещена в архив.