SerpScrap · PyPI

Opis Projektu Skrobak Pythona SEO do wyodrębniania danych z głównych stron wyników wyszukiwania....
Stosowanie
Obsługiwany system operacyjny
0.12.0
0.11.0
Pobierz pliki

Opis Projektu
Skrobak Pythona SEO do wyodrębniania danych z głównych stron wyników wyszukiwania. Wyodrębnij dane takie jak adres URL, tytuł, fragment kodu, fragment bogatego tekstu i typ z wyników wyszukiwania dla danych słów kluczowych. Wykrywanie reklam lub wykonywanie automatycznych zrzutów ekranu. Możesz także pobrać treść tekstową adresów URL podanych w wynikach wyszukiwania lub samodzielnie. Jest przydatny do zadań badawczych związanych z SEO i biznesem.

zainstalować

Łatwy sposób:

pip uninstall SerpScrap - y pip install SerpScrap - aktualizacja

Więcej szczegółów w zainstalować [1] część dokumentacji.

Stosowanie

SerpScrap w twoich aplikacjach

#! / usr / bin / python3 # - * - kodowanie: utf-8 - * - import pprint import serpscrap keywords = ['example'] config = serpscrap. Config () config. set ('scrape_urls', False) scrap = serpscrap. Złom SerpScrap (). init (config = config. get (), keywords = keywords) results = złom. run () dla wyniku w wynikach: pprint. pprint (wynik)

Więcej szczegółów w przykłady [2] część dokumentacji.

Aby uniknąć problemów z kodowaniem / dekodowaniem, użyj tego polecenia przed rozpoczęciem korzystania z SerpScrap w cli.

chcp 65001 set PYTHONIOENCODING = utf-8

Obsługiwany system operacyjny

SerpScrap powinien działać w systemach Linux, Windows i Mac OS z zainstalowanym Pythonem> = 3.4
SerpScrap wymaga lxml
Nie działa na iOS

Zmiany

Uwagi na temat głównych zmian między wydaniami

0.12.0

Polecam aktualizację najnowszej wersji SerpScrap, ponieważ wyszukiwarka zaktualizowała znaczniki stron wyników wyszukiwania (serp)

Aktualizacja i czyszczenie selektorów w celu pobrania wyników
nowe filmy typu wynikowego

0.11.0

Bezgłowy Chrome jest teraz domyślną przeglądarką, użycie phantomJS jest przestarzałe
chromedriver jest instalowany przy pierwszym uruchomieniu (testowany na systemach Linux i Windows. Mac OS powinien również działać)
zachowanie skrobania surowej zawartości tekstu z adresów URL serp i oczywiście podane adresy URL uległy zmianie
uruchom skrobanie wyników i zawartości serp na raz
Zmieniono format wyjściowy csv, teraz jest oddzielony i cytowany

0.10.0

obsługa bezgłowego chromu, regulowany domyślny czas między zadrapaniami

0.9.0

dodane typy wyników (aktualności, zakupy, obraz)
Wyszukiwanie obrazów jest obsługiwane

0.8.0

usunięte narzędzia do przetwarzania tekstu.
mniej wymagań

Referencje

SerpScrap używa Bezgłowy Chrome [3] i lxml [4] zeskrobać wyniki serp. W przypadku surowej zawartości tekstu pobranych adresów URL używa beautifulsoup4 [5] . SerpScrap obsługuje również PhantomJs [6] , który jest przestarzały, skryptowy bezgłowy WebKit, który jest instalowany automatycznie przy pierwszym uruchomieniu (Linux, Windows). Scrapcore był oparty na GoogleScraper [7] , przestarzały projekt, ma wiele zmian i ulepszeń.

Pobierz pliki

Pobierz plik na swoją platformę. Jeśli nie jesteś pewien, który wybrać, dowiedz się więcej o instalowanie pakietów .