В современном мире данных парсинг стал неотъемлемой частью обработки информации. Создание простого скрипта для парсинга позволяет извлекать данные из различных источников, таких как веб-страницы, API и другие. В этой статье мы рассмотрим, как создать базовый скрипт для парсинга текста и изображений с использованием Python.
Парсинг (или извлечение данных) — это процесс анализа структуры данных и выделения из них полезной информации. Наиболее часто парсинг применяется для:
Для выполнения парсинга в Python чаще всего используются библиотеки BeautifulSoup для работы с HTML и requests для выполнения HTTP-запросов. Также может понадобиться PIL (Python Imaging Library) для работы с изображениями. Установите их следующими командами:
pip install beautifulsoup4 requests pillow
Давайте создадим простой скрипт, который извлекает текст с веб-страницы. В качестве примера возьмем сайт Example.com.
import requests from bs4 import BeautifulSoup # URL целевой страницы url = 'http://example.com' # Отправка GET-запроса response = requests.get(url) # Создание объекта BeautifulSoup soup = BeautifulSoup(response.text, 'html.parser') # Извлечение заголовка title = soup.find('h1').text print('Заголовок:', title) # Извлечение всех параграфов paragraphs = soup.find_all('p') for p in paragraphs: print('Параграф:', p.text)
Теперь рассмотрим, как можно извлечь изображения с веб-страницы. Мы добавим код для скачивания первого изображения с той же страницы.
import os # Создание директории для сохранения изображений if not os.path.exists('images'): os.makedirs('images') # Извлечение изображений images = soup.find_all('img') for index, img in enumerate(images): img_url = img['src'] # В некоторых случаях URL может быть неполным if not img_url.startswith('http'): img_url = url + img_url # Скачивание изображения img_data = requests.get(img_url).content with open(f'images/image_{index}.jpg', 'wb') as handler: handler.write(img_data) print(f'Изображение {index} скачано.')
Создание простого скрипта для парсинга данных — это полезный навык, который позволяет автоматизировать сбор информации. В этой статье мы рассмотрели, как с помощью Python и необходимых библиотек можно извлечь текст и изображения с веб-страницы. Теперь вы можете создавать свои собственные парсеры для сбора и анализа данных в различных областях.
Автор: Максим Мирошник
Python — это один из самых популярных языков программирования, который используется как новичками, так и профессио...
Flask — это популярный фреймворк для создания веб-приложений на языке Python. Он прост в использовании и идеально ...
Flask — это легковесный и мощный веб-фреймворк на языке Python, который позволяет создавать желаемые приложения вс...
Rust — это современный язык программирования, который стремительно набирает популярность благодаря своей безопасно...
Облачные платформы для разработки и поддержки ИИ-решений стремительно завоевывают популярность в мире технологий. ...
С каждым днём технологии всё глубже проникают в нашу жизнь, и среди них искусственный интеллект (ИИ) становится вс...