У меня есть скрипт, предназначенный для личного использования, который очищает некоторые веб-сайты для получения информации, и до недавнего времени он работал нормально, но, похоже, один из веб-сайтов усилил свою безопасность, и я больше не могу получить доступ к его содержимому.
Я использую python с запросами и BeautifulSoup для очистки данных, но когда я пытаюсь получить содержимое веб-сайта с помощью запросов, я сталкиваюсь со следующим:
'<html><head><META NAME="ROBOTS" CONTENT="NOINDEX, NOFOLLOW"></head><iframe src="/_Incapsula_Resource?CWUDNSAI=9_4E402615&incident_id=133000790078576866-343390778581910775&edet=12&cinfo=4bb304cac75381e904000000" frameborder=0 width="100%" height="100%" marginheight="0px" marginwidth="0px">Request unsuccessful. Incapsula incident ID: 133000790078576866-343390778581910775</iframe></html>'
Я провел небольшое исследование, и похоже, что меня останавливает следующее: http://www.robotstxt.org/meta.html
Можно ли как-нибудь убедить веб-сайт, что я не злонамеренный робот? Это скрипт, который я запускаю примерно 1 раз в день на одном бите исходного кода, поэтому я никоим образом не являюсь обузой для их серверов. Просто кто-то со сценарием, чтобы упростить задачу :)
РЕДАКТИРОВАТЬ: пытался переключиться на механизацию и игнорировать robots.txt таким образом, но я не получаю ответ 403 Forbidden. Я предполагаю, что они изменили свою позицию в отношении парсинга и еще не обновили свои TOS. Пора переходить к плану Б, больше не использовать веб-сайт, если у кого-то нет других идей.