SerpScrap · PyPI

  1. Апісанне праекта SEO пітон скрабок для вымання дадзеных з асноўных вынікаў пошукавай старонак. Выманне...
  2. выкарыстанне
  3. Падтрымліваюцца АС
  4. 0.12.0
  5. 0.11.0
  6. Спампаваць файлы

Апісанне праекта

SEO пітон скрабок для вымання дадзеных з асноўных вынікаў пошукавай старонак. Выманне дадзеных як URL, назву, фрагмент кода, richsnippet і тыпу ад SearchResults для зададзеных ключавых слоў. Выяўленне аб'яваў ці зрабіць аўтаматычныя скрыншоты. Вы таксама можаце атрымаць тэкставае змесціва URL-адрасоў, прадстаўленых у SearchResults ці самастойна. Гэта карысна для SEO і звязаных з бізнес-задач даследавання.

ўсталёўваць

Самы просты спосаб зрабіць:

Піп дэўсталёўваць SerpScrap - каля пункта ўсталяваць SerpScrap - абнаўленне

Дадатковая інфармацыя ў ўсталёўваць [1] раздзел дакументацыі.

выкарыстанне

SerpScrap ў прыкладаннях

#! / USR / бен / python3 # - * - кадаваньне: UTF-8 - * - імпарт pprint імпарт serpscrap ключавыя словы = [ 'прыклад'] = конфіг serpscrap. Канфігурацыя () канфігурацыі. набор ( 'scrape_urls', False) Скрап = serpscrap. SerpScrap () лому. ініцыялізацыі (канфігурацыі = канфігурацыя. атрымаць (), ключавыя словы = ключавыя словы) вынікі = скрап. запусціць () для выніку ў выніках: pprint. pprint (вынік)

Больш поўная інфармацыя ў прыкладаў [2] раздзел дакументацыі.

Для таго, каб пазбегнуць кадавання / дэкадаванні пытанняў выкарыстоўвайце гэтую каманду, перш чым пачаць выкарыстоўваць SerpScrap ў вашым кліматыч.

CHCP 65001 набор PYTHONIOENCODING = UTF-8 CHCP 65001 набор PYTHONIOENCODING = UTF-8

Падтрымліваюцца АС

  • SerpScrap павінен працаваць на Linux, Windows і Mac OS з усталяваным Python> = 3.4
  • SerpScrap requieres LXML
  • Не працую на прашыўцы

змены

Нататкі пра буйныя зменах паміж выпускамі

0.12.0

Я рэкамендую абнаўленне да апошняй версіі SerpScrap, таму што пошукавік абнавіў разметку старонак вынікаў пошуку (SERP)

  • Абнаўленне і зачыстка селектараў для здабывання вынікаў
  • новае ResultType відэа

0.11.0

  • Chrome абезгалоўленых цяпер браўзэр па змаўчанні, выкарыстанне phantomJS састарэла
  • chromedriver усталёўваецца пры першым запуску (праверана на Linux і Windows. Mac OS таксама павінна працаваць)
  • паводзіны выскрабання сыравіны зместу тэксту з SERP URLs, і, вядома, з улікам URLs, змяніўся
  • запусціць выскрабанне вынікаў SERP і змест адразу
  • Выхадны фармат CSV змяніўся, цяпер гэта ўкладка аддзялілі і цытуемы

0.10.0

  • падтрымка абезгалоўленага хрому, вызначаны час па змаўчанні паміж соскоб

0.9.0

  • тыпы вынікаў дадалі (навіны, пакупкі, малюнак)
  • Пошук малюнкаў падтрымліваецца

0.8.0

  • інструменты для апрацоўкі тэксту выдаленыя.
  • менш патрабаванняў

спасылкі

SerpScrap выкарыстоўвае Chrome безгаловы [3] і LXML [4] каб ачысціць вынікі сярпа. Для сыравіны тэкставага змесціва непраўдападобным URL, ён выкарыстоўвае beautifulsoup4 [5] , SerpScrap таксама падтрымлівае PhantomJs [6] , Які з'яўляецца састарэлым, скрыптамі абезгалоўленага WebKit, які усталёўваецца аўтаматычна пры першым запуску (Linux, Windows). Scrapcore быў заснаваны на GoogleScraper [7] , Састарэлы праект, і мае шмат змен і improvemts.

Спампаваць файлы

Загрузіце файл для вашай платформы. Калі вы не ведаеце, што выбраць, даведацца больш пра ўстаноўка пакетаў ,