SerpScrap · PyPI

Апісанне праекта SEO пітон скрабок для вымання дадзеных з асноўных вынікаў пошукавай старонак. Выманне...
выкарыстанне
Падтрымліваюцца АС
0.12.0
0.11.0
Спампаваць файлы

Апісанне праекта
SEO пітон скрабок для вымання дадзеных з асноўных вынікаў пошукавай старонак. Выманне дадзеных як URL, назву, фрагмент кода, richsnippet і тыпу ад SearchResults для зададзеных ключавых слоў. Выяўленне аб'яваў ці зрабіць аўтаматычныя скрыншоты. Вы таксама можаце атрымаць тэкставае змесціва URL-адрасоў, прадстаўленых у SearchResults ці самастойна. Гэта карысна для SEO і звязаных з бізнес-задач даследавання.

ўсталёўваць

Самы просты спосаб зрабіць:

Піп дэўсталёўваць SerpScrap - каля пункта ўсталяваць SerpScrap - абнаўленне

Дадатковая інфармацыя ў ўсталёўваць [1] раздзел дакументацыі.

выкарыстанне

SerpScrap ў прыкладаннях

#! / USR / бен / python3 # - * - кадаваньне: UTF-8 - * - імпарт pprint імпарт serpscrap ключавыя словы = [ 'прыклад'] = конфіг serpscrap. Канфігурацыя () канфігурацыі. набор ( 'scrape_urls', False) Скрап = serpscrap. SerpScrap () лому. ініцыялізацыі (канфігурацыі = канфігурацыя. атрымаць (), ключавыя словы = ключавыя словы) вынікі = скрап. запусціць () для выніку ў выніках: pprint. pprint (вынік)

Больш поўная інфармацыя ў прыкладаў [2] раздзел дакументацыі.

Для таго, каб пазбегнуць кадавання / дэкадаванні пытанняў выкарыстоўвайце гэтую каманду, перш чым пачаць выкарыстоўваць SerpScrap ў вашым кліматыч.

CHCP 65001 набор PYTHONIOENCODING = UTF-8

Падтрымліваюцца АС

SerpScrap павінен працаваць на Linux, Windows і Mac OS з усталяваным Python> = 3.4
SerpScrap requieres LXML
Не працую на прашыўцы

змены

Нататкі пра буйныя зменах паміж выпускамі

0.12.0

Я рэкамендую абнаўленне да апошняй версіі SerpScrap, таму што пошукавік абнавіў разметку старонак вынікаў пошуку (SERP)

Абнаўленне і зачыстка селектараў для здабывання вынікаў
новае ResultType відэа

0.11.0

Chrome абезгалоўленых цяпер браўзэр па змаўчанні, выкарыстанне phantomJS састарэла
chromedriver усталёўваецца пры першым запуску (праверана на Linux і Windows. Mac OS таксама павінна працаваць)
паводзіны выскрабання сыравіны зместу тэксту з SERP URLs, і, вядома, з улікам URLs, змяніўся
запусціць выскрабанне вынікаў SERP і змест адразу
Выхадны фармат CSV змяніўся, цяпер гэта ўкладка аддзялілі і цытуемы

0.10.0

падтрымка абезгалоўленага хрому, вызначаны час па змаўчанні паміж соскоб

0.9.0

тыпы вынікаў дадалі (навіны, пакупкі, малюнак)
Пошук малюнкаў падтрымліваецца

0.8.0

інструменты для апрацоўкі тэксту выдаленыя.
менш патрабаванняў

спасылкі

SerpScrap выкарыстоўвае Chrome безгаловы [3] і LXML [4] каб ачысціць вынікі сярпа. Для сыравіны тэкставага змесціва непраўдападобным URL, ён выкарыстоўвае beautifulsoup4 [5] , SerpScrap таксама падтрымлівае PhantomJs [6] , Які з'яўляецца састарэлым, скрыптамі абезгалоўленага WebKit, які усталёўваецца аўтаматычна пры першым запуску (Linux, Windows). Scrapcore быў заснаваны на GoogleScraper [7] , Састарэлы праект, і мае шмат змен і improvemts.

Спампаваць файлы

Загрузіце файл для вашай платформы. Калі вы не ведаеце, што выбраць, даведацца больш пра ўстаноўка пакетаў ,