SerpScrap · PyPI

Опис проекту SEO Python скребок для вилучення даних з основних сторінок результатів пошуку. Витягування...
Використання
Підтримувані ОС
0.12.0
0.11.0
Завантажити файли

Опис проекту
SEO Python скребок для вилучення даних з основних сторінок результатів пошуку. Витягування даних, таких як url, назва, фрагмент, richsnippet і тип з результатів пошуку для заданих ключових слів. Виявляти об'яви або робити автоматичні знімки екрана. Ви також можете отримувати текстовий вміст URL-адрес, наведених у результатах пошуку або за власним бажанням. Це корисно для SEO і бізнес-завдань, пов'язаних з дослідженнями.

Встановіть

Найпростіший спосіб:

pip uninstall SerpScrap - y pip install СерпСкрап - оновлення

Більш детальна інформація в встановити [1] розділу документації.

Використання

SerpScrap у ваших програмах

#! / usr / bin / python3 # - * - кодування: utf-8 - * - імпорт pprint імпортувати serpscrap keywords = ['example'] config = serpscrap. Конфігурація Config (). set ('scrape_urls', False) scrap = serpscrap. Записка SerpScrap (). init (config = config. get (), ключові слова = ключові слова) results = scrap. run () для результату: pprint. pprint (результат)

Докладніше в приклади [2] розділу документації.

Щоб уникнути проблем кодування / декодування, скористайтеся цією командою, перш ніж почати використовувати SerpScrap у вашому кліпі.

chcp 65001 встановити PYTHONIOENCODING = utf-8

Підтримувані ОС

SerpScrap повинен працювати на Linux, Windows і Mac OS з встановленим Python> = 3.4
SerpScrap requieres lxml
Не працює на iOS

Зміни

Примітки про основні зміни між випусками

0.12.0

Я рекомендую оновити останню версію SerpScrap, оскільки searchchengine оновив розмітку сторінок результатів пошуку (serp)

Оновлення та очищення селекторів для отримання результатів
нові відео типу результатів

0.11.0

Chrome без голови тепер є браузером за умовчанням, використання phantomJS застаріло
chromedriver встановлюється на першому запуску (тестується на Linux і Windows. Mac OS також має працювати)
Змінилася поведінка вилучення вмісту вихідного тексту з urp urp, і, звичайно, заданих URL-адрес
виконують одноразове очищення результатів і вмісту серпа
формат виходу csv змінився, тепер його розділяють та цитують

0.10.0

підставка для хром без голови, налаштований час за замовчуванням між подряпинами

0.9.0

додані типи результатів (новини, покупки, зображення)
Пошук зображень підтримується

0.8.0

видалені інструменти обробки тексту.
менше вимог

Список літератури

SerpScrap використовується Хром без голови [3] і lxml [4] для очищення результатів серпа. Для текстового вмісту отриманих URL-адрес вона використовується beautifulsoup4 [5] . SerpScrap також підтримує PhantomJs [6] , який є застарілим, WebKit без сценаріїв, який встановлюється автоматично під час першого запуску (Linux, Windows). Скрабок був заснований на GoogleScraper [7] , застарілий проект, який має багато змін і вдосконалюється.

Завантажити файли

Завантажте файл для своєї платформи. Якщо ви не впевнені, що вибрати, дізнайтеся більше про це встановлення пакетів .