Как извлечь элементы с одинаковыми тегами в одном и том же div в BeautifulSoup с помощью Python?

Я новичок, изучаю Python через небольшие проекты, поэтому в настоящее время изучаю парсинг в Интернете с помощью BeautifulSoup. HTML страницы выглядит так:

<div class="BrandList"> <div><b>Brand Name: </b>ONCOTRON INJ</div>
 <div><b>Manufacture Name: </b>SUN PHARMA</div> <div><b>Compositions:
 </b>

Mitoxantrone 2mg/ml injection,

</div>

Мне нужно проанализировать информацию и сохранить ее в формате csv с тремя столбцами: имя, название производителя и составы.

Я попытался запустить свой код, но смог извлечь только название бренда, в то время как мне нужен оставшийся текст внутри div.

import requests
from bs4 import BeautifulSoup

data = requests.get ('http://www.inpharmation.in/Search/BrandList?Type=Manufacturer&ProductID=79').text
soup= BeautifulSoup(data, 'lxml')

brand = soup.find('div', attrs = {'id':'maincontent'})
out_filename = "Sunp.csv"
headers = "brand,Compositions \n"
f = open(out_filename, "w")
f.write(headers)

for BrandList in brand.findAll('div', attrs = {'class':'BrandList'}):
    BrandList['Name'] = Brand_Name.b.text
    BrandList['Compositions'] = Compositions.b.text
    print("brand: " + brand + "\n")
    print("Compositions: " + Compositions + "\n")

    f.write (brand + "," + Compositions + "\n")
f.close()

Я ожидал вывода торговой марки, состава и названия производителя, но я получил только торговую марку.

python web-scraping beautifulsoup

12.07.2019

Ответы:

Встроенная функция Python strip() используется для удалить все начальные и конечные пробелы из строки. Метод find_all возвращает набор элементов. использование библиотеки pandas для сохранения данных в файл csv.

from bs4 import BeautifulSoup
import requests
import pandas as pd

data = requests.get ('http://www.inpharmation.in/Search/BrandList?Type=Manufacturer&ProductID=79').text
soup= BeautifulSoup(data, 'lxml')
brand_list = soup.find_all('div', attrs = {'class':'BrandList'})
brand_json = []

for brand in brand_list:
    my_dict = {}
    brand = brand.find_all("div")
    my_dict['brand_name'] = brand[0].text.split(":")[1].strip()
    my_dict['manufacture'] = brand[1].text.split(":")[1].strip()
    my_dict['compositions'] = brand[2].text.split(":")[1].strip()

    brand_json.append(my_dict)

print(brand_json)
df = pd.DataFrame(brand_json)
#save dataframe into csv file
df.to_csv("sunp.csv")

12.07.2019

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP