Ниже представлен простой пример кода на Python, который использует библиотеки requests
для отправки HTTP-запросов и BeautifulSoup
из пакета bs4
для анализа HTML-контента и извлечения данных. Давайте предположим, что мы хотим извлечь названия статей и их URL с главной страницы блога.
Для начала вам потребуется установить необходимые библиотеки (если они еще не установлены):
1 |
pip install requests beautifulsoup4 |
Теперь можно написать код парсера:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 |
import requests from bs4 import BeautifulSoup # URL сайта, который хотим спарсить url = "http://example.com/" # Совершаем HTTP-GET запрос к сайту response = requests.get(url) # Проверяем статус ответа if response.status_code == 200: # Используем BeautifulSoup для парсинга HTML soup = BeautifulSoup(response.text, 'html.parser') # Ищем интересующие нас элементы на странице. Например, предположим, что статьи # находятся в элементах с классом "article-title" и они представлены в виде ссылок articles = soup.find_all('a', class_='article-title') # Извлекаем название и URL каждой статьи for article in articles: title = article.text.strip() # получаем текст ссылки link = article.get('href') # получаем атрибут href (URL) print(f"Article Title: {title}, Article URL: {link}") else: print("Failed to retrieve the webpage") |
В примере используется условное имя класса article-title
для элементов, содержащих названия и ссылки на статьи. Вам потребуется заменить это на реальные селекторы, используемые на целевом сайте.
Важно: Приведенный выше код является базовым примером и может не работать со сложными сайтами, использующими JavaScript для динамической подгрузки контента, защиту от ботов и т. п. Также не забывайте о юридической и этической стороне парсинга веб-ресурсов.