- Апісанне праекта SEO пітон скрабок для вымання дадзеных з асноўных вынікаў пошукавай старонак. Выманне...
- выкарыстанне
- Падтрымліваюцца АС
- 0.12.0
- 0.11.0
- Спампаваць файлы
Апісанне праекта
SEO пітон скрабок для вымання дадзеных з асноўных вынікаў пошукавай старонак. Выманне дадзеных як URL, назву, фрагмент кода, richsnippet і тыпу ад SearchResults для зададзеных ключавых слоў. Выяўленне аб'яваў ці зрабіць аўтаматычныя скрыншоты. Вы таксама можаце атрымаць тэкставае змесціва URL-адрасоў, прадстаўленых у SearchResults ці самастойна. Гэта карысна для SEO і звязаных з бізнес-задач даследавання.
ўсталёўваць
Самы просты спосаб зрабіць:
Піп дэўсталёўваць SerpScrap - каля пункта ўсталяваць SerpScrap - абнаўленне
Дадатковая інфармацыя ў ўсталёўваць [1] раздзел дакументацыі.
выкарыстанне
SerpScrap ў прыкладаннях
#! / USR / бен / python3 # - * - кадаваньне: UTF-8 - * - імпарт pprint імпарт serpscrap ключавыя словы = [ 'прыклад'] = конфіг serpscrap. Канфігурацыя () канфігурацыі. набор ( 'scrape_urls', False) Скрап = serpscrap. SerpScrap () лому. ініцыялізацыі (канфігурацыі = канфігурацыя. атрымаць (), ключавыя словы = ключавыя словы) вынікі = скрап. запусціць () для выніку ў выніках: pprint. pprint (вынік)
Больш поўная інфармацыя ў прыкладаў [2] раздзел дакументацыі.
Для таго, каб пазбегнуць кадавання / дэкадаванні пытанняў выкарыстоўвайце гэтую каманду, перш чым пачаць выкарыстоўваць SerpScrap ў вашым кліматыч.
CHCP 65001 набор PYTHONIOENCODING = UTF-8
Падтрымліваюцца АС
- SerpScrap павінен працаваць на Linux, Windows і Mac OS з усталяваным Python> = 3.4
- SerpScrap requieres LXML
- Не працую на прашыўцы
змены
Нататкі пра буйныя зменах паміж выпускамі
0.12.0
Я рэкамендую абнаўленне да апошняй версіі SerpScrap, таму што пошукавік абнавіў разметку старонак вынікаў пошуку (SERP)
- Абнаўленне і зачыстка селектараў для здабывання вынікаў
- новае ResultType відэа
0.11.0
- Chrome абезгалоўленых цяпер браўзэр па змаўчанні, выкарыстанне phantomJS састарэла
- chromedriver усталёўваецца пры першым запуску (праверана на Linux і Windows. Mac OS таксама павінна працаваць)
- паводзіны выскрабання сыравіны зместу тэксту з SERP URLs, і, вядома, з улікам URLs, змяніўся
- запусціць выскрабанне вынікаў SERP і змест адразу
- Выхадны фармат CSV змяніўся, цяпер гэта ўкладка аддзялілі і цытуемы
0.10.0
- падтрымка абезгалоўленага хрому, вызначаны час па змаўчанні паміж соскоб
0.9.0
- тыпы вынікаў дадалі (навіны, пакупкі, малюнак)
- Пошук малюнкаў падтрымліваецца
0.8.0
- інструменты для апрацоўкі тэксту выдаленыя.
- менш патрабаванняў
спасылкі
SerpScrap выкарыстоўвае Chrome безгаловы [3] і LXML [4] каб ачысціць вынікі сярпа. Для сыравіны тэкставага змесціва непраўдападобным URL, ён выкарыстоўвае beautifulsoup4 [5] , SerpScrap таксама падтрымлівае PhantomJs [6] , Які з'яўляецца састарэлым, скрыптамі абезгалоўленага WebKit, які усталёўваецца аўтаматычна пры першым запуску (Linux, Windows). Scrapcore быў заснаваны на GoogleScraper [7] , Састарэлы праект, і мае шмат змен і improvemts.
Спампаваць файлы
Загрузіце файл для вашай платформы. Калі вы не ведаеце, што выбраць, даведацца больш пра ўстаноўка пакетаў ,