Nano Hash - криптовалюты, майнинг, программирование

Как я могу эффективно сгруппировать большой список URL-адресов по имени хоста в Perl?

У меня есть текстовый файл, содержащий более миллиона URL-адресов. Я должен обработать этот файл, чтобы назначить URL-адреса группам на основе адреса хоста:

{
    'http://www.ex1.com' => ['http://www.ex1.com/...', 'http://www.ex1.com/...', ...],
    'http://www.ex2.com' => ['http://www.ex2.com/...', 'http://www.ex2.com/...', ...]
}

В моем текущем базовом решении для этого требуется около 600 МБ ОЗУ (размер файла составляет около 300 МБ). Не могли бы вы предоставить более эффективные способы?

Мое текущее решение просто читает строку за строкой, извлекает адрес хоста с помощью регулярного выражения и помещает URL-адрес в хэш.

ИЗМЕНИТЬ

Вот моя реализация (я отрезал ненужное):

while($line = <STDIN>) { 
    chomp($line); 
    $line =~ /(http:\/\/.+?)(\/|$)/i; 
    $host = "$1"; 
    push @{$urls{$host}}, $line; 
}

store \%urls, 'out.hash'; 
06.04.2010

  • Можем ли мы увидеть вашу текущую реализацию? 07.04.2010

Ответы:


1

Один из возможных подходов – привязать хеш URL-адреса к DBM, например BerkeleyDB. Вы можете явно указать, сколько памяти он может использовать.

06.04.2010

2

Если вы читаете 600 МБ из двух файлов и сохраняете их в памяти (в хэше), у вас не так много места для оптимизации с точки зрения использования памяти (за исключением сжатия данных, что, вероятно, не является жизнеспособным вариантом).

Но в зависимости от того, как вы собираетесь использовать данные в хэше, возможно, стоит подумать о сохранении данных в базе данных и запросе необходимой информации.

ИЗМЕНИТЬ:

Основываясь на опубликованном вами коде, быстрой оптимизацией будет сохранение не всей строки, а только относительного URL-адреса. В конце концов, у вас уже есть имя хоста в качестве ключа в вашем хеше.

06.04.2010
  • У меня есть только один файл размером 300 мб. Когда скрипт работает, он занимает 600 МБ оперативной памяти. Извините за мой английский - он не очень хорош. Я должен сохранить обработанный файл в данном хеше для дальнейшей обработки. 07.04.2010
  • Он читает только одну строчку за раз. Это структура данных, которую он создает, использует память. 07.04.2010
  • @brian d foy: Что? Разве я не об этом? 07.04.2010
  • Я не знаю точно, что вы говорите, и он тоже. Возможно, вы можете отредактировать свой ответ, чтобы он был более кратким и ясным. 08.04.2010

  • 3

    Кроме хранения ваших структур данных на диске (привязанный хэш DBM, как предложил Леон Тиммерманс, база данных SQL, такая как SQLite3 и т. д.), вы не сможете значительно сократить потребление памяти. 300 Мбайт фактических данных, плюс интерпретатор Perl, плюс представление вашей программы в байт-коде, плюс метаданные каждой из извлеченных строк дадут в сумме существенно более 300 Мбайт общей используемой памяти, если вы сохраните все это в памяти. Во всяком случае, я слегка удивлен, что размер входного файла всего в два раза больше.

    Еще одна вещь, которую следует учитывать, заключается в том, что если вы собираетесь обрабатывать один и тот же файл более одного раза, хранение проанализированной структуры данных на диске означает, что вам никогда не придется тратить время на ее повторный анализ при будущих запусках. программа.

    07.04.2010

    4

    Чего именно вы пытаетесь добиться? Если вы собираетесь провести какой-то сложный анализ, хорошей идеей будет сохранение в базе данных, группировка - это просто промежуточный шаг, вы можете просто отсортировать текстовый файл, а затем обработать его последовательно, непосредственно получая результаты, которые вы ищете.

    12.04.2010
    Новые материалы

    Кластеризация: более глубокий взгляд
    Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

    Как написать эффективное резюме
    Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

    Частный метод Python: улучшение инкапсуляции и безопасности
    Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

    Как я автоматизирую тестирование с помощью Jest
    Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

    Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
    Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

    Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
    В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

    Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
    В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..