- Opis Projektu Skrobak Pythona SEO do wyodrębniania danych z głównych stron wyników wyszukiwania....
- Stosowanie
- Obsługiwany system operacyjny
- 0.12.0
- 0.11.0
- Pobierz pliki
Opis Projektu
Skrobak Pythona SEO do wyodrębniania danych z głównych stron wyników wyszukiwania. Wyodrębnij dane takie jak adres URL, tytuł, fragment kodu, fragment bogatego tekstu i typ z wyników wyszukiwania dla danych słów kluczowych. Wykrywanie reklam lub wykonywanie automatycznych zrzutów ekranu. Możesz także pobrać treść tekstową adresów URL podanych w wynikach wyszukiwania lub samodzielnie. Jest przydatny do zadań badawczych związanych z SEO i biznesem.
zainstalować
Łatwy sposób:
pip uninstall SerpScrap - y pip install SerpScrap - aktualizacja
Więcej szczegółów w zainstalować [1] część dokumentacji.
Stosowanie
SerpScrap w twoich aplikacjach
#! / usr / bin / python3 # - * - kodowanie: utf-8 - * - import pprint import serpscrap keywords = ['example'] config = serpscrap. Config () config. set ('scrape_urls', False) scrap = serpscrap. Złom SerpScrap (). init (config = config. get (), keywords = keywords) results = złom. run () dla wyniku w wynikach: pprint. pprint (wynik)
Więcej szczegółów w przykłady [2] część dokumentacji.
Aby uniknąć problemów z kodowaniem / dekodowaniem, użyj tego polecenia przed rozpoczęciem korzystania z SerpScrap w cli.
chcp 65001 set PYTHONIOENCODING = utf-8
Obsługiwany system operacyjny
- SerpScrap powinien działać w systemach Linux, Windows i Mac OS z zainstalowanym Pythonem> = 3.4
- SerpScrap wymaga lxml
- Nie działa na iOS
Zmiany
Uwagi na temat głównych zmian między wydaniami
0.12.0
Polecam aktualizację najnowszej wersji SerpScrap, ponieważ wyszukiwarka zaktualizowała znaczniki stron wyników wyszukiwania (serp)
- Aktualizacja i czyszczenie selektorów w celu pobrania wyników
- nowe filmy typu wynikowego
0.11.0
- Bezgłowy Chrome jest teraz domyślną przeglądarką, użycie phantomJS jest przestarzałe
- chromedriver jest instalowany przy pierwszym uruchomieniu (testowany na systemach Linux i Windows. Mac OS powinien również działać)
- zachowanie skrobania surowej zawartości tekstu z adresów URL serp i oczywiście podane adresy URL uległy zmianie
- uruchom skrobanie wyników i zawartości serp na raz
- Zmieniono format wyjściowy csv, teraz jest oddzielony i cytowany
0.10.0
- obsługa bezgłowego chromu, regulowany domyślny czas między zadrapaniami
0.9.0
- dodane typy wyników (aktualności, zakupy, obraz)
- Wyszukiwanie obrazów jest obsługiwane
0.8.0
- usunięte narzędzia do przetwarzania tekstu.
- mniej wymagań
Referencje
SerpScrap używa Bezgłowy Chrome [3] i lxml [4] zeskrobać wyniki serp. W przypadku surowej zawartości tekstu pobranych adresów URL używa beautifulsoup4 [5] . SerpScrap obsługuje również PhantomJs [6] , który jest przestarzały, skryptowy bezgłowy WebKit, który jest instalowany automatycznie przy pierwszym uruchomieniu (Linux, Windows). Scrapcore był oparty na GoogleScraper [7] , przestarzały projekt, ma wiele zmian i ulepszeń.
Pobierz pliki
Pobierz plik na swoją platformę. Jeśli nie jesteś pewien, który wybrać, dowiedz się więcej o instalowanie pakietów .