Как я могу выбрать случайное количество строк на основе различных критериев?

У меня есть таблица с тремя основными категориями: age, city и gender.

Столбец пола: boolean.

Возрастная категория находится в следующем диапазоне:

['18-25','26-35','36-45','46-55','56-65','66-75','75+']

Категория города насчитывает около 19 cities. Итак, для каждого города в категориях '18-25' и '75+' я хотел бы выбрать 24 случайных строки для females и 20 для males.

Для остальных cities я хотел бы выбрать 40 случайных males и 47 случайных females.

Можно ли добиться этого без необходимости запускать конкретный запрос для каждого случая?

Извините за отсутствие кода, но, честно говоря, я даже не знаю, с чего и как начать :(

sql google-bigquery

14.12.2020

пример данных пожалуйста и ожидаемый результат! так что мы можем помочь :о) 15.12.2020
Спасибо @MikhailBerlyant. Это нелегко объяснить, но в основном это было похоже на цепочку из 3 сообщений, где я искал ответы. Вы определенно помогли мне с одним из этих вопросов. Я смог решить важную проблему с помощью вашего unnest ответа. Мне нужно больше учиться. 15.12.2020

Ответы:

Вы можете использовать row_number() для случайного перечисления строк, а затем просто фильтровать:

select t.*
from (select t.*,
             row_number() over (partition by city, age, gender order by rand()) as seqnum
      from t
     ) t
where (age in ('18-25', '75+') and
       (gender = 'female' and seqnum <= 24 or
        gender = 'male' and seqnum <= 20
       )
      ) or 
      (age not in ('18-25', '75+') and
       (gender = 'female' and seqnum <= 47 or
        gender = 'male' and seqnum <= 40
       )
      )

15.12.2020

Привет @Гордон Линофф. Это, в сочетании с другими ответами на потоковые сообщения (фактически 3 сообщения), смогло решить мою проблему. Чтобы получить другие части случайного выбора, мне нужно выполнить тот же запрос, изменить диапазон чисел age и seqnum, а затем выполнить запрос union all, верно? 15.12.2020

@PedroPabloSeverinHonorato . . . Я думаю, что неправильно понял исходный вопрос. Я изменил ответ. Union all все равно не надо. . . просто сложная логика фильтрации. 15.12.2020

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Smart Contracts Typescript Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP