Nano Hash - криптовалюты, майнинг, программирование

Как извлечь подтемы обзора с помощью python и NLTK?

Есть ли какой-либо эффективный способ извлечь пояснения к подтемам обзора с использованием библиотеки python и NLTK. В качестве примера отзыв пользователя о мобильном телефоне может быть: «Аккумулятор этого телефона хорош, но дисплей — ерунда». Я хочу извлечь две вышеперечисленные функции, такие как

"Battery is good"
"display is a bullshit"

Цель вышеизложенного состоит в том, чтобы разработать систему оценки продуктов с учетом их характеристик. Анализ полярности выполнен. Но извлечение функций обзора для меня довольно сложно. Но я нашел способ извлечь функции, используя шаблоны тегов POS с регулярными выражениями, такими как

<NN.?><VB.?>?<JJ.?> 

этот шаблон в качестве подтемы. Но проблема в том, что в обзоре может быть много шаблонов в соответствии с шаблонами описания пользователей.

Есть ли способ эффективно решить мою проблему??? Спасибо !!


Ответы:


1

Заданный вами вопрос многогранен, и на него непросто ответить.

Концептуально вы можете выполнить следующие шаги:

  1. Определите названия функций телефонов (+ возможно создание онтологии на основе этих функций).

  2. Создайте списки синонимов к названиям функций (аналогично для оценочных фраз, например, хороший, плохой, отстой и т. д.).

  3. Используйте один из тегеров NLTK для разбора отзывов.

  4. Создайте правила для извлечения признаков и их оценки (часть «Извлечение информации»). Я не уверен, может ли NLTK напрямую поддержать вас в этом.

  5. Оценить и уточнить подход.

Или: создайте более крупный аннотированный корпус и обучите на нем модель глубокого обучения, используя TensorFlow, Theano или что-то подобное.

25.05.2017
  • Я уже прошел эти шаги, но дело в определении правил (шаг 4, по вашему мнению). Люди могут использовать разные шаблоны POS. Есть ли способ автоматически генерировать эти шаблоны (потому что мне не нужно извлекать выбранные шаблоны) 25.05.2017
  • Плохие новости. Создание правил для IE, как правило, является самой рутинной частью работы, и вы редко можете что-либо сделать для их автоматического извлечения. Вот почему Deep Learning находит так много сторонников в этой задаче. 25.05.2017
  • можете ли вы упомянуть какой-либо связанный учебник для этой задачи. Благодарность 26.05.2017
  • В последний раз я использовал IE на основе правил некоторое время назад, когда GATE - [gate.ac.uk] был популярен. Правила IE для GATE указаны в JAPE (их DSL). Обзор, который может оказаться полезным, находится здесь: [is.informatik.uni-duisburg.de/courses/ie_ws10/folien/ 26.05.2017
  • Новые материалы

    Кластеризация: более глубокий взгляд
    Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

    Как написать эффективное резюме
    Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

    Частный метод Python: улучшение инкапсуляции и безопасности
    Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

    Как я автоматизирую тестирование с помощью Jest
    Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

    Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)
    Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

    Понимание расстояния Вассерштейна: мощная метрика в машинном обучении
    В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

    Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot
    В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..