- Опис проекту SEO Python скребок для вилучення даних з основних сторінок результатів пошуку. Витягування...
- Використання
- Підтримувані ОС
- 0.12.0
- 0.11.0
- Завантажити файли
Опис проекту
SEO Python скребок для вилучення даних з основних сторінок результатів пошуку. Витягування даних, таких як url, назва, фрагмент, richsnippet і тип з результатів пошуку для заданих ключових слів. Виявляти об'яви або робити автоматичні знімки екрана. Ви також можете отримувати текстовий вміст URL-адрес, наведених у результатах пошуку або за власним бажанням. Це корисно для SEO і бізнес-завдань, пов'язаних з дослідженнями.
Встановіть
Найпростіший спосіб:
pip uninstall SerpScrap - y pip install СерпСкрап - оновлення
Більш детальна інформація в встановити [1] розділу документації.
Використання
SerpScrap у ваших програмах
#! / usr / bin / python3 # - * - кодування: utf-8 - * - імпорт pprint імпортувати serpscrap keywords = ['example'] config = serpscrap. Конфігурація Config (). set ('scrape_urls', False) scrap = serpscrap. Записка SerpScrap (). init (config = config. get (), ключові слова = ключові слова) results = scrap. run () для результату: pprint. pprint (результат)
Докладніше в приклади [2] розділу документації.
Щоб уникнути проблем кодування / декодування, скористайтеся цією командою, перш ніж почати використовувати SerpScrap у вашому кліпі.
chcp 65001 встановити PYTHONIOENCODING = utf-8
Підтримувані ОС
- SerpScrap повинен працювати на Linux, Windows і Mac OS з встановленим Python> = 3.4
- SerpScrap requieres lxml
- Не працює на iOS
Зміни
Примітки про основні зміни між випусками
0.12.0
Я рекомендую оновити останню версію SerpScrap, оскільки searchchengine оновив розмітку сторінок результатів пошуку (serp)
- Оновлення та очищення селекторів для отримання результатів
- нові відео типу результатів
0.11.0
- Chrome без голови тепер є браузером за умовчанням, використання phantomJS застаріло
- chromedriver встановлюється на першому запуску (тестується на Linux і Windows. Mac OS також має працювати)
- Змінилася поведінка вилучення вмісту вихідного тексту з urp urp, і, звичайно, заданих URL-адрес
- виконують одноразове очищення результатів і вмісту серпа
- формат виходу csv змінився, тепер його розділяють та цитують
0.10.0
- підставка для хром без голови, налаштований час за замовчуванням між подряпинами
0.9.0
- додані типи результатів (новини, покупки, зображення)
- Пошук зображень підтримується
0.8.0
- видалені інструменти обробки тексту.
- менше вимог
Список літератури
SerpScrap використовується Хром без голови [3] і lxml [4] для очищення результатів серпа. Для текстового вмісту отриманих URL-адрес вона використовується beautifulsoup4 [5] . SerpScrap також підтримує PhantomJs [6] , який є застарілим, WebKit без сценаріїв, який встановлюється автоматично під час першого запуску (Linux, Windows). Скрабок був заснований на GoogleScraper [7] , застарілий проект, який має багато змін і вдосконалюється.
Завантажити файли
Завантажте файл для своєї платформи. Якщо ви не впевнені, що вибрати, дізнайтеся більше про це встановлення пакетів .