Nano Hash - криптовалюты, майнинг, программирование

Каков правильный способ преобразования данных json (которые не определены/беспорядочны) в DataFrame?

Я пытаюсь понять, как данные JSON, которые не анализируются/не извлекаются правильно, могут быть преобразованы в (Pandas) DataFrame.

Я использую python (3.7.1) и пробовал обычный способ чтения данных JSON. На самом деле код работает, если я использую синтаксис транспонирования или оси = 1. Но при этом полностью игнорируется большое количество значений или переменных в данных, и я на 100% уверен, что, возможно, код работает, но не дает желаемых результатов.

import pandas as pd
import numpy as np
import csv
import json
sourcefile = open(r"C:\Users\jadil\Downloads\chicago-red-light-and-speed-camera-data\socrata_metadata_red-light-camera-violations.json")
json_data = json.load(sourcefile)
#print(json_data)
type(json_data)
dict
## this code works but is not loading/reading complete data
df = pd.DataFrame.from_dict(json_data, orient="index")
df.head(15)
#This is what I am getting for the first 15 rows
df.head(15)
0
createdAt   1407456580
description This dataset reflects the daily volume of viol...
rights  [read]
flags   [default, restorable, restorePossibleForType]
id  spqx-js37
oid 24980316
owner   {'type': 'interactive', 'profileImageUrlLarge'...
newBackend  False
totalTimesRated 0
attributionLink http://www.cityofchicago.org
hideFromCatalog False
columns [{'description': 'Intersection of the location...
displayType table
indexUpdatedAt  1553164745
rowsUpdatedBy   n9j5-zh

Ответы:


1

Как вы видели, Pandas попытается создать фрейм данных из данных JSON, даже если они не проанализированы или не извлечены правильно. Если ваша цель состоит в том, чтобы точно понять, что делает Pandas при просмотре беспорядочного файла JSON, вы можете заглянуть в код pd.DataFrame.from_dict(), чтобы узнать больше. Если ваша цель состоит в том, чтобы правильно преобразовать данные JSON во фрейм данных Pandas, вам нужно будет предоставить дополнительную информацию о данных JSON, в идеале предоставив образец данных в виде текста в вашем вопросе. Если ваши данные достаточно сложны, вы можете попробовать функцию json_normalize(), как описано здесь.

22.03.2019
Новые материалы

Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности
Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..