Как я могу эффективно сгруппировать большой список URL-адресов по имени хоста в Perl?

У меня есть текстовый файл, содержащий более миллиона URL-адресов. Я должен обработать этот файл, чтобы назначить URL-адреса группам на основе адреса хоста:

{
    'http://www.ex1.com' => ['http://www.ex1.com/...', 'http://www.ex1.com/...', ...],
    'http://www.ex2.com' => ['http://www.ex2.com/...', 'http://www.ex2.com/...', ...]
}

В моем текущем базовом решении для этого требуется около 600 МБ ОЗУ (размер файла составляет около 300 МБ). Не могли бы вы предоставить более эффективные способы?

Мое текущее решение просто читает строку за строкой, извлекает адрес хоста с помощью регулярного выражения и помещает URL-адрес в хэш.

ИЗМЕНИТЬ

Вот моя реализация (я отрезал ненужное):

while($line = <STDIN>) { 
    chomp($line); 
    $line =~ /(http:\/\/.+?)(\/|$)/i; 
    $host = "$1"; 
    push @{$urls{$host}}, $line; 
}

store \%urls, 'out.hash';

performance perl

06.04.2010

Можем ли мы увидеть вашу текущую реализацию? 07.04.2010

Ответы:

Один из возможных подходов – привязать хеш URL-адреса к DBM, например BerkeleyDB. Вы можете явно указать, сколько памяти он может использовать.

06.04.2010

Если вы читаете 600 МБ из двух файлов и сохраняете их в памяти (в хэше), у вас не так много места для оптимизации с точки зрения использования памяти (за исключением сжатия данных, что, вероятно, не является жизнеспособным вариантом).

Но в зависимости от того, как вы собираетесь использовать данные в хэше, возможно, стоит подумать о сохранении данных в базе данных и запросе необходимой информации.

ИЗМЕНИТЬ:

Основываясь на опубликованном вами коде, быстрой оптимизацией будет сохранение не всей строки, а только относительного URL-адреса. В конце концов, у вас уже есть имя хоста в качестве ключа в вашем хеше.

06.04.2010

У меня есть только один файл размером 300 мб. Когда скрипт работает, он занимает 600 МБ оперативной памяти. Извините за мой английский - он не очень хорош. Я должен сохранить обработанный файл в данном хеше для дальнейшей обработки. 07.04.2010

Он читает только одну строчку за раз. Это структура данных, которую он создает, использует память. 07.04.2010

@brian d foy: Что? Разве я не об этом? 07.04.2010

Я не знаю точно, что вы говорите, и он тоже. Возможно, вы можете отредактировать свой ответ, чтобы он был более кратким и ясным. 08.04.2010

Кроме хранения ваших структур данных на диске (привязанный хэш DBM, как предложил Леон Тиммерманс, база данных SQL, такая как SQLite3 и т. д.), вы не сможете значительно сократить потребление памяти. 300 Мбайт фактических данных, плюс интерпретатор Perl, плюс представление вашей программы в байт-коде, плюс метаданные каждой из извлеченных строк дадут в сумме существенно более 300 Мбайт общей используемой памяти, если вы сохраните все это в памяти. Во всяком случае, я слегка удивлен, что размер входного файла всего в два раза больше.

Еще одна вещь, которую следует учитывать, заключается в том, что если вы собираетесь обрабатывать один и тот же файл более одного раза, хранение проанализированной структуры данных на диске означает, что вам никогда не придется тратить время на ее повторный анализ при будущих запусках. программа.

07.04.2010

Чего именно вы пытаетесь добиться? Если вы собираетесь провести какой-то сложный анализ, хорошей идеей будет сохранение в базе данных, группировка - это просто промежуточный шаг, вы можете просто отсортировать текстовый файл, а затем обработать его последовательно, непосредственно получая результаты, которые вы ищете.

12.04.2010

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP

Как я могу эффективно сгруппировать большой список URL-адресов по имени хоста в Perl?

Ответы:

Новые материалы

Кластеризация: более глубокий взгляд

Как написать эффективное резюме

Частный метод Python: улучшение инкапсуляции и безопасности

Как я автоматизирую тестирование с помощью Jest

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

Теги