SerpScrap · PyPI

  1. Опис проекту SEO Python скребок для вилучення даних з основних сторінок результатів пошуку. Витягування...
  2. Використання
  3. Підтримувані ОС
  4. 0.12.0
  5. 0.11.0
  6. Завантажити файли

Опис проекту

SEO Python скребок для вилучення даних з основних сторінок результатів пошуку. Витягування даних, таких як url, назва, фрагмент, richsnippet і тип з результатів пошуку для заданих ключових слів. Виявляти об'яви або робити автоматичні знімки екрана. Ви також можете отримувати текстовий вміст URL-адрес, наведених у результатах пошуку або за власним бажанням. Це корисно для SEO і бізнес-завдань, пов'язаних з дослідженнями.

Встановіть

Найпростіший спосіб:

pip uninstall SerpScrap - y pip install СерпСкрап - оновлення

Більш детальна інформація в встановити [1] розділу документації.

Використання

SerpScrap у ваших програмах

#! / usr / bin / python3 # - * - кодування: utf-8 - * - імпорт pprint імпортувати serpscrap keywords = ['example'] config = serpscrap. Конфігурація Config (). set ('scrape_urls', False) scrap = serpscrap. Записка SerpScrap (). init (config = config. get (), ключові слова = ключові слова) results = scrap. run () для результату: pprint. pprint (результат)

Докладніше в приклади [2] розділу документації.

Щоб уникнути проблем кодування / декодування, скористайтеся цією командою, перш ніж почати використовувати SerpScrap у вашому кліпі.

chcp 65001 встановити PYTHONIOENCODING = utf-8 chcp 65001 встановити PYTHONIOENCODING = utf-8

Підтримувані ОС

  • SerpScrap повинен працювати на Linux, Windows і Mac OS з встановленим Python> = 3.4
  • SerpScrap requieres lxml
  • Не працює на iOS

Зміни

Примітки про основні зміни між випусками

0.12.0

Я рекомендую оновити останню версію SerpScrap, оскільки searchchengine оновив розмітку сторінок результатів пошуку (serp)

  • Оновлення та очищення селекторів для отримання результатів
  • нові відео типу результатів

0.11.0

  • Chrome без голови тепер є браузером за умовчанням, використання phantomJS застаріло
  • chromedriver встановлюється на першому запуску (тестується на Linux і Windows. Mac OS також має працювати)
  • Змінилася поведінка вилучення вмісту вихідного тексту з urp urp, і, звичайно, заданих URL-адрес
  • виконують одноразове очищення результатів і вмісту серпа
  • формат виходу csv змінився, тепер його розділяють та цитують

0.10.0

  • підставка для хром без голови, налаштований час за замовчуванням між подряпинами

0.9.0

  • додані типи результатів (новини, покупки, зображення)
  • Пошук зображень підтримується

0.8.0

  • видалені інструменти обробки тексту.
  • менше вимог

Список літератури

SerpScrap використовується Хром без голови [3] і lxml [4] для очищення результатів серпа. Для текстового вмісту отриманих URL-адрес вона використовується beautifulsoup4 [5] . SerpScrap також підтримує PhantomJs [6] , який є застарілим, WebKit без сценаріїв, який встановлюється автоматично під час першого запуску (Linux, Windows). Скрабок був заснований на GoogleScraper [7] , застарілий проект, який має багато змін і вдосконалюється.

Завантажити файли

Завантажте файл для своєї платформи. Якщо ви не впевнені, що вибрати, дізнайтеся більше про це встановлення пакетів .