Nano Hash - криптовалюты, майнинг, программирование

Как я могу выбрать случайное количество строк на основе различных критериев?

У меня есть таблица с тремя основными категориями: age, city и gender.

Столбец пола: boolean.

Возрастная категория находится в следующем диапазоне:

['18-25','26-35','36-45','46-55','56-65','66-75','75+']

Категория города насчитывает около 19 cities. Итак, для каждого города в категориях '18-25' и '75+' я хотел бы выбрать 24 случайных строки для females и 20 для males.

Для остальных cities я хотел бы выбрать 40 случайных males и 47 случайных females.

Можно ли добиться этого без необходимости запускать конкретный запрос для каждого случая?

Извините за отсутствие кода, но, честно говоря, я даже не знаю, с чего и как начать :(

14.12.2020

  • пример данных пожалуйста и ожидаемый результат! так что мы можем помочь :о) 15.12.2020
  • Спасибо @MikhailBerlyant. Это нелегко объяснить, но в основном это было похоже на цепочку из 3 сообщений, где я искал ответы. Вы определенно помогли мне с одним из этих вопросов. Я смог решить важную проблему с помощью вашего unnest ответа. Мне нужно больше учиться. 15.12.2020

Ответы:


1

Вы можете использовать row_number() для случайного перечисления строк, а затем просто фильтровать:

select t.*
from (select t.*,
             row_number() over (partition by city, age, gender order by rand()) as seqnum
      from t
     ) t
where (age in ('18-25', '75+') and
       (gender = 'female' and seqnum <= 24 or
        gender = 'male' and seqnum <= 20
       )
      ) or 
      (age not in ('18-25', '75+') and
       (gender = 'female' and seqnum <= 47 or
        gender = 'male' and seqnum <= 40
       )
      )
15.12.2020
  • Привет @Гордон Линофф. Это, в сочетании с другими ответами на потоковые сообщения (фактически 3 сообщения), смогло решить мою проблему. Чтобы получить другие части случайного выбора, мне нужно выполнить тот же запрос, изменить диапазон чисел age и seqnum, а затем выполнить запрос union all, верно? 15.12.2020
  • @PedroPabloSeverinHonorato . . . Я думаю, что неправильно понял исходный вопрос. Я изменил ответ. Union all все равно не надо. . . просто сложная логика фильтрации. 15.12.2020
  • Новые материалы

    Кластеризация: более глубокий взгляд
    Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

    Как написать эффективное резюме
    Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

    Частный метод Python: улучшение инкапсуляции и безопасности
    Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

    Как я автоматизирую тестирование с помощью Jest
    Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

    Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
    Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

    Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
    В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

    Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
    В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..