Главная страница » Блог » Код простого парсера на Python.

Код простого парсера на Python.

Mikhail Tarasov
21 июня, 2024

Ниже представлен простой пример кода на Python, который использует библиотеки requests для отправки HTTP-запросов и BeautifulSoup из пакета bs4 для анализа HTML-контента и извлечения данных. Давайте предположим, что мы хотим извлечь названия статей и их URL с главной страницы блога.

Для начала вам потребуется установить необходимые библиотеки (если они еще не установлены):

pip install requests beautifulsoup4

1	pip install requests beautifulsoup4

Теперь можно написать код парсера:

import requests
from bs4 import BeautifulSoup
# URL сайта, который хотим спарсить
url = "http://example.com/"
# Совершаем HTTP-GET запрос к сайту
response = requests.get(url)
# Проверяем статус ответа
if response.status_code == 200:
    # Используем BeautifulSoup для парсинга HTML
    soup = BeautifulSoup(response.text, 'html.parser')
    
    # Ищем интересующие нас элементы на странице. Например, предположим, что статьи
    # находятся в элементах с классом "article-title" и они представлены в виде ссылок
    articles = soup.find_all('a', class_='article-title')
    
    # Извлекаем название и URL каждой статьи
    for article in articles:
        title = article.text.strip()  # получаем текст ссылки
        link = article.get('href')    # получаем атрибут href (URL)
        print(f"Article Title: {title}, Article URL: {link}")
else:
    print("Failed to retrieve the webpage")

import requests

from bs4 import BeautifulSoup

# URL сайта, который хотим спарсить

url = "http://example.com/"

# Совершаем HTTP-GET запрос к сайту

response = requests.get(url)

# Проверяем статус ответа

if response.status_code == 200:

# Используем BeautifulSoup для парсинга HTML

soup = BeautifulSoup(response.text, 'html.parser')

# Ищем интересующие нас элементы на странице. Например, предположим, что статьи

# находятся в элементах с классом "article-title" и они представлены в виде ссылок

articles = soup.find_all('a', class_='article-title')

# Извлекаем название и URL каждой статьи

for article in articles:

title = article.text.strip() # получаем текст ссылки

link = article.get('href') # получаем атрибут href (URL)

print(f"Article Title: {title}, Article URL: {link}")

else:

print("Failed to retrieve the webpage")

В примере используется условное имя класса article-title для элементов, содержащих названия и ссылки на статьи. Вам потребуется заменить это на реальные селекторы, используемые на целевом сайте.

Важно: Приведенный выше код является базовым примером и может не работать со сложными сайтами, использующими JavaScript для динамической подгрузки контента, защиту от ботов и т. п. Также не забывайте о юридической и этической стороне парсинга веб-ресурсов.