SerpScrap · PyPI

  1. Opis Projektu Skrobak Pythona SEO do wyodrębniania danych z głównych stron wyników wyszukiwania....
  2. Stosowanie
  3. Obsługiwany system operacyjny
  4. 0.12.0
  5. 0.11.0
  6. Pobierz pliki

Opis Projektu

Skrobak Pythona SEO do wyodrębniania danych z głównych stron wyników wyszukiwania. Wyodrębnij dane takie jak adres URL, tytuł, fragment kodu, fragment bogatego tekstu i typ z wyników wyszukiwania dla danych słów kluczowych. Wykrywanie reklam lub wykonywanie automatycznych zrzutów ekranu. Możesz także pobrać treść tekstową adresów URL podanych w wynikach wyszukiwania lub samodzielnie. Jest przydatny do zadań badawczych związanych z SEO i biznesem.

zainstalować

Łatwy sposób:

pip uninstall SerpScrap - y pip install SerpScrap - aktualizacja

Więcej szczegółów w zainstalować [1] część dokumentacji.

Stosowanie

SerpScrap w twoich aplikacjach

#! / usr / bin / python3 # - * - kodowanie: utf-8 - * - import pprint import serpscrap keywords = ['example'] config = serpscrap. Config () config. set ('scrape_urls', False) scrap = serpscrap. Złom SerpScrap (). init (config = config. get (), keywords = keywords) results = złom. run () dla wyniku w wynikach: pprint. pprint (wynik)

Więcej szczegółów w przykłady [2] część dokumentacji.

Aby uniknąć problemów z kodowaniem / dekodowaniem, użyj tego polecenia przed rozpoczęciem korzystania z SerpScrap w cli.

chcp 65001 set PYTHONIOENCODING = utf-8 chcp 65001 set PYTHONIOENCODING = utf-8

Obsługiwany system operacyjny

  • SerpScrap powinien działać w systemach Linux, Windows i Mac OS z zainstalowanym Pythonem> = 3.4
  • SerpScrap wymaga lxml
  • Nie działa na iOS

Zmiany

Uwagi na temat głównych zmian między wydaniami

0.12.0

Polecam aktualizację najnowszej wersji SerpScrap, ponieważ wyszukiwarka zaktualizowała znaczniki stron wyników wyszukiwania (serp)

  • Aktualizacja i czyszczenie selektorów w celu pobrania wyników
  • nowe filmy typu wynikowego

0.11.0

  • Bezgłowy Chrome jest teraz domyślną przeglądarką, użycie phantomJS jest przestarzałe
  • chromedriver jest instalowany przy pierwszym uruchomieniu (testowany na systemach Linux i Windows. Mac OS powinien również działać)
  • zachowanie skrobania surowej zawartości tekstu z adresów URL serp i oczywiście podane adresy URL uległy zmianie
  • uruchom skrobanie wyników i zawartości serp na raz
  • Zmieniono format wyjściowy csv, teraz jest oddzielony i cytowany

0.10.0

  • obsługa bezgłowego chromu, regulowany domyślny czas między zadrapaniami

0.9.0

  • dodane typy wyników (aktualności, zakupy, obraz)
  • Wyszukiwanie obrazów jest obsługiwane

0.8.0

  • usunięte narzędzia do przetwarzania tekstu.
  • mniej wymagań

Referencje

SerpScrap używa Bezgłowy Chrome [3] i lxml [4] zeskrobać wyniki serp. W przypadku surowej zawartości tekstu pobranych adresów URL używa beautifulsoup4 [5] . SerpScrap obsługuje również PhantomJs [6] , który jest przestarzały, skryptowy bezgłowy WebKit, który jest instalowany automatycznie przy pierwszym uruchomieniu (Linux, Windows). Scrapcore był oparty na GoogleScraper [7] , przestarzały projekt, ma wiele zmian i ulepszeń.

Pobierz pliki

Pobierz plik na swoją platformę. Jeśli nie jesteś pewien, który wybrać, dowiedz się więcej o instalowanie pakietów .