Дополнения/изменения:
* Google после последнего обновления своих алгоритмов выдачи капчи так же ОЧЕНЬ ЗНАЧИТЕЛЬНО УЖЕСТОЧИЛ требования к proxy, через которые производятся запросы. Если парсить через паблик прокси, то данные прокси сейчас практически все в бане у данной ПС и при работе через них Google сначала выдает капчу, затем сообщение, что с данного IP зарегистрирован подозрительный трафик и данный IP будет блокирован на достаточно долгое время. Выход - парсинг-чекинг новых прокси с помощью парсера и XPCP.
** Реализация данной опции открывает неограниченные возможности для парсинга новых ссылок, т.к. разбиение запросов на временные интервалы дает возможность спарсить действительно всё. Используя вместе с данной опцией использование словаря при парсинге позволяет утверждать, что Парсер Xseon действительно забирает всю выдачу ПС, НО НЕ ОБХОДЯ ОГРАНИЧЕНИЯ - НЕ БОЛЕЕ 1К ССЫЛОК НА 1 ЗАПРОС.
- Изменена логика Парсера Yandex;
- Изменена логика Парсера Google*;
- Добавлена возможность парсить Yandex в зонах .ru, .ua, .by, .kz;
- Исправлен баг формирования множественных поисковых запросов в Google с разбивкой на заданные временные интервалы;
- Добавлена опция для Yandex, вышедшая уже в релизе 2.0.1.2 для Google - ФОРМИРОВАНИЕ УНИКАЛЬНЫХ ПОИСКОВЫХ ЗАПРОСОВ, СФОРМИРОВАННЫХ РАЗБИВКОЙ ИСХОДНЫХ ЗАПРОСОВ НА ВРЕМЕННЫЕ ИНТЕРВАЛЫ, ВПЛОТЬ ДО 1 ДНЯ.**
* Google после последнего обновления своих алгоритмов выдачи капчи так же ОЧЕНЬ ЗНАЧИТЕЛЬНО УЖЕСТОЧИЛ требования к proxy, через которые производятся запросы. Если парсить через паблик прокси, то данные прокси сейчас практически все в бане у данной ПС и при работе через них Google сначала выдает капчу, затем сообщение, что с данного IP зарегистрирован подозрительный трафик и данный IP будет блокирован на достаточно долгое время. Выход - парсинг-чекинг новых прокси с помощью парсера и XPCP.
** Реализация данной опции открывает неограниченные возможности для парсинга новых ссылок, т.к. разбиение запросов на временные интервалы дает возможность спарсить действительно всё. Используя вместе с данной опцией использование словаря при парсинге позволяет утверждать, что Парсер Xseon действительно забирает всю выдачу ПС, НО НЕ ОБХОДЯ ОГРАНИЧЕНИЯ - НЕ БОЛЕЕ 1К ССЫЛОК НА 1 ЗАПРОС.
Комментариев нет:
Отправить комментарий