Nano Hash - криптовалюты, майнинг, программирование

Вопросы по теме 'nltk'

Как добавить значения в генератор при использовании биграмм в методе conditionalFreqDist в python?
Контекст: я использую NLTK для создания вероятностей биграмм. У меня есть корпус, из которого я сгенерировал биграммы. -> 'wordPairsBigram' относится к биграмме из корпуса. У меня есть предложение "Председатель компании сказал, что увеличит...

Как сгладить дерево синтаксического анализа и сохранить в строке для дальнейших строковых операций python nltk
Я пытаюсь получить плоское дерево из древовидной структуры, подобной приведенной ниже. Я хочу получить все это дерево в строке, например, без ошибки обнаружения плохого дерева: ( (S (NP-SBJ (NP (DT The) (JJ high) (JJ seven-day) )(PP (IN...

Различать список между человеческими именами и названиями компаний
У меня есть список компаний, но некоторые из этих компаний просто имена людей. Я хочу исключить этих людей из списка, но не могу найти способ идентифицировать имена людей из компаний. С помощью онлайн-исследований я попробовал два способа. Первый...
24.11.2023

Python 3.5: URL-адрес загрузки NLTK по умолчанию не изменится
Я обновил DEFAULT_URL в downloader.py, но по-прежнему получаю следующую ошибку. Первоначально я пробовал только nltk.downloader(), и браузер файлов обновлялся, но когда я пытался загрузить, он все равно возвращался на сайт github. DEFAULT_URL =...
09.12.2023

Как извлечь подтемы обзора с помощью python и NLTK?
Есть ли какой-либо эффективный способ извлечь пояснения к подтемам обзора с использованием библиотеки python и NLTK. В качестве примера отзыв пользователя о мобильном телефоне может быть: «Аккумулятор этого телефона хорош, но дисплей — ерунда». Я хочу...

в чем разница между tfidf vectorizer и tfidf transformer
Я знаю, что формула для tfidf vectorizer такова: Count of word/Total count * log(Number of documents / no.of documents where word is present) Я видел, что в scikit learn есть трансформатор tfidf, и я просто хотел различить их. Я не мог...

TypeError: («ожидаемая строка или байтовый объект», «произошло с индексом 0») при вызове process.extract
Я получаю следующее сообщение об ошибке, когда пытаюсь использовать process.extract из библиотеки fuzzywuzzy для столбца в Панды DataFrame: TypeError: («ожидаемая строка или байтовый объект», «произошла по индексу 0») Фон У меня...

Читайте текстовый файл быстрее в Python
У меня есть несколько текстовых файлов в папке. Общее количество текстовых файлов составляет 21941. Мой код хорошо работает для небольшого количества текстовых файлов, но когда я запускаю 5000 текстовых файлов, он застревает при чтении. Когда я...
22.12.2023

Синтаксическая ошибка при лемматизации столбца в пандах
Я пытаюсь лемматизировать слова в определенном столбце («тело»), используя pandas. Я попробовал следующий код, который нашел здесь import nltk from nltk.tokenize import word_tokenize from nltk.stem.wordnet import WordNetLemmatizer lemmatizer...

Новые материалы

Кластеризация: более глубокий взгляд
Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме
Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности
Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest
Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..