анализ n-грамм имени на неанглийских языках (CJK и т. д.)

Я работаю над дедупликацией базы данных людей. Для первого прохода я следую базовому двухэтапному процессу, чтобы избежать операции O (n ^ 2) для всей базы данных, как описано в в литературе. Во-первых, я «блокирую» - перебираю весь набор данных и разделяю каждую запись на основе n-граммов И инициалов, присутствующих в имени. Во-вторых, все записи для каждого бункера сравниваются с использованием метода Яро-Винклера, чтобы определить вероятность того, что они представляют одного и того же человека.

Моя проблема - имена в Юникоде. Некоторые (хотя и не многие) из этих имен написаны на языках CJK (китайский, японский и корейский). Я понятия не имею, как найти границы слов для чего-то вроде инициалов в эти языки. Я понятия не имею, действителен ли анализ n-граммов для имен на языках, где имена могут состоять из двух символов. Я также не знаю, действительны ли в этом контексте расстояния редактирования строк или другие метрики сходства.

Есть идеи от программистов-лингвистов или носителей языка?

python nlp similarity n-gram cjk

05.04.2012

Ответы:

Еще немного информации о японском:

Когда дело доходит до разделения имен на фамилию и имя, морфологические анализаторы, такие как mecab (упомянутые в ответе @ Holden), в основном работают, но уровень точности не будет очень высоким , потому что они будут правильно понимать только те имена, которые есть в их словаре (статистические возможности mecab в основном относятся к тегам POS и работе с неоднозначными словарными статьями, но если имя собственное отсутствует в словаре, mecab в большинстве случаев разделит его на отдельные символы, что почти всегда неверно). Чтобы проверить это, я использовал случайный список имен в Интернете (этот, который содержит имена 113 человек ), извлекли имена, удалили из них пробелы и протестировали mecab с помощью IPAdic. Получил ок. 21% названий ошиблись.

«Правильные» японские имена, то есть имена японцев, состоят из фамилии (чаще всего 2, но иногда 1 или 3, кандзи) и имени (чаще всего 1 или 2, иногда 3 кандзи, но иногда 2-5 хираганы). Нет отчества и нет понятия инициалов. Вы можете улучшить вывод mecab, (1) используя исчерпывающий словарь фамилий, который можно составить из веб-ресурсов, (2) предполагая, что вывод неверен, если имеется более двух элементов, и затем используйте самодельный словарь фамилий, чтобы распознать часть фамилии, и если это не удастся, используйте правила разделения по умолчанию, основанные на количестве символов. Последнее не всегда будет точным.

Конечно, иностранные имена могут быть представлены и на японском языке. Во-первых, есть китайские и корейские имена, которые обычно представлены с помощью кандзи, то есть любые правила разделения для китайского или корейского, которые вы используете, могут применяться более или менее напрямую. Западные, а также арабские или индийские имена представлены с использованием символов латиницы (хотя, возможно, полной ширины) или символов катакана, часто (но не всегда) с использованием пробел или средняя точка ・ между фамилией и именем. В то время как для имен японцев, китайцев или корейцев порядок в японском представлении всегда будет фамилией, а затем именем, порядок западных имен трудно предсказать.

Вам вообще нужно разделить имена на семейство и заданную часть? В целях дедупликации / очистки данных это необходимо только в том случае, если некоторые из возможных дубликатов появляются в другом порядке или с необязательными инициалами в середине. Ничего из этого невозможно в японских именах (ни китайских, ни корейских именах, если на то пошло). Единственное, что нужно иметь в виду, это то, что если вам дана строка катакана с пробелами или средними точками в ней, вы, вероятно, имеете дело с западным именем, и в этом случае полезно разделение на пробел / среднюю точку.

Хотя разделение, вероятно, на самом деле не требуется, вы должны решить ряд других проблем, не упомянутых в предыдущих ответах:

Транслитерация иностранных имен. В зависимости от того, как была построена ваша база данных, могут быть ситуации, в которых используется западное имя, например «Обама» в одной записи, и японское представление катаканы «オバマ» в повторяющейся записи. К сожалению, преобразование латинского языка в катакану непросто, поскольку катакана пытается отразить произношение имени, которое может варьироваться в зависимости от языка или происхождения и акцента того, кто его произносит. Например. тот, кто впервые слышит имя «Обама», может испытать соблазн представить его как «オバーマ», чтобы подчеркнуть долгую гласную в середине. Решение этой проблемы нетривиально и никогда не сработает идеально, но если вы считаете, что это важно для вашей проблемы с очищением, давайте рассмотрим ее в отдельном вопросе.

Варианты кандзи. В японских именах (а также в японских представлениях некоторых китайцев или корейских имен) используются кандзи, которые считаются традиционными версиями современных кандзи. Например, многие распространенные фамилии содержат 澤, что является версией 沢. Например, фамилия Такадзава может записываться как 高沢 или 高澤. Обычно только один правильный вариант используется любым конкретным лицом с таким именем, но нередко неправильный вариант используется в записи базы данных. Поэтому вам обязательно нужно привести традиционные варианты к современным, прежде чем сравнивать имена. Эта веб-страница предоставляет сопоставление, которое, конечно, не является исчерпывающим, но, вероятно, Достаточно хорошо для ваших целей.

Как латинские символы, так и символы катаканы существуют как как во всю ширину, так и в полуширину. В катакане обычно используется первое, а на латыни - второе, но нет никакой гарантии. Вы должны нормализовать всю Какатану до полной ширины и всю латинскую до полуширины, прежде чем сравнивать имена.

Возможно, излишне говорить, что существуют различные версии символов пробела, которые вы также должны нормализовать перед сравнением имен. Более того, в последовательности чистых иероглифов я рекомендую удалить все пробелы перед сравнением.

Как уже говорилось, некоторые имена (особенно женские) написаны хираганой. Может случиться так, что в некоторых случаях эти же имена написаны катаканой. Сопоставление между хираганой и катаканой возможно тривиально. Вам следует подумать о нормализации всех Кана (то есть хираганы и катаканы) до общего представления (либо хираганы, либо катаканы), прежде чем проводить какие-либо сравнения.

Также может случиться так, что некоторые имена кандзи представлены с помощью Кана. Это связано с тем, что тот, кто сделал запись в базе данных, возможно, не знал правильного кандзи для имени (особенно с именами, угадать правильный кандзи после прослушивания имени, например, по телефону, очень часто невозможно даже для носителей языка). К сожалению, сопоставление между представлениями кандзи и представлениями кана очень сложно и весьма неоднозначно, например, 真, 誠 и 実 являются возможными кандзи для имени «Макото». Любой человек с таким именем сочтет правильным для себя только одно из них, но невозможно узнать, какое из них, если единственное, что вы знаете, это то, что имя - «Макото». Но Кана основана на звуке, поэтому все три версии одинаковы マコト в Катакане. Словари, встроенные в морфологические анализаторы, такие как mecab, предоставляют сопоставления, но поскольку существует более одного возможного кандзи для любой последовательности Кана и наоборот, фактическое использование этого во время очистки данных значительно усложнит ваш алгоритм. В зависимости от того, как изначально была создана ваша база данных, это может быть или не быть актуальной проблемой.

Специальное редактирование имен авторов публикации: японские переводы неяпонских книг обычно транслитерируют имя автора на катакана. Например. в списке рекомендаций по книгам газеты Asahi сегодня 30 книг; 7 имеют имя западного автора на катакане. У них даже есть сокращенные имена и вторые инициалы, которые они хранят на латыни, например

Ｈ・Ｓ・フリードマン и Ｌ・Ｒ・マーティン

что соответствует

H.S. Фридман (или Фридман, или Фридман, или Фридман?)

и

L.R. Мартин (или Матин, или Махтин?)

Я бы сказал, что это является примером наиболее распространенного способа работы с именами авторов неяпонского происхождения книг:

Инициалы сохранены как латинские.

Несокращенные части имени даны в катакане (но нет однозначно определенного сопоставления между латинским и катаканой, как описано в 5.1)

Сохраняется порядок: первое, среднее, фамилия. Это очень распространенное соглашение для имен авторов, но в базе данных клиентов оно может отличаться.

Для разделения элементов используются либо пробел, либо средняя точка (как указано выше), либо стандартная точка ASCII.

Итак, если ваш проект связан с именами авторов книг, я считаю, что следующее верно в отношении неяпонских авторов:

Один и тот же автор может появиться в латинском (в неяпонской записи), а также в представлении катаканы (в японской статье). Чтобы определить, что две такие записи относятся к одному и тому же автору, вам необходимо сопоставить катакану и латынь. Это нетривиальная проблема, но тоже не является непреодолимой (хотя она никогда не будет работать на 100% правильно). Я не уверен, что хорошее решение доступно бесплатно; но давайте рассмотрим это в отдельном вопросе (возможно, с помощью japanese ), если требуется.

Даже если по какой-то причине мы можем предположить, что нет латинских дубликатов имен катаканы, все же есть хороший шанс, что в катакане есть несколько вариантов (из-за 5.1). Однако для имен авторов (в частности, известных авторов) можно с уверенностью предположить, что количество вариаций относительно ограничено. Следовательно, для начала может быть достаточно нормализовать точки и пробелы.

Разделение на имя и фамилию тривиально (пробелы и точки), и порядок имен, как правило, будет одинаковым для всех вариантов.

Западные авторы, как правило, не будут представлены с использованием иероглифов. Есть несколько человек, которые считают себя настолько близкими к Японии, что выбирают кандзи для своего имени (это вопрос выбора, а не просто транслитерации, потому что кандзи несут значение), но это будет настолько редко, что вряд ли стоит беспокоясь о.

Что касается японских авторов, они будут представлены кандзи, как описано во второй части основного ответа. В западных переводах их книг их имена, как правило, будут даваться на латыни, и порядок будет меняться. Например,

村上春樹 (村上 = Мураками, фамилия, 春樹 = Харуки, имя)

будет представлен как

Харуки Мураками

о переводах его книг. Такое сопоставление кандзи и латыни требует очень обширного словаря и довольно большой работы. Кроме того, написание на латыни не всегда может быть однозначно определено, даже если это возможно при чтении кандзи. Например. одно из наиболее частых японских фамилий, 伊藤, может произноситься как «Ито», так и «Ито» на английском языке. Даже «Ито» и «Итоо» не невозможны.

Если японско-латинское перекрестное сопоставление не требуется, единственный вид вариации среди самих представлений кандзи, который вы увидите, - это варианты кандзи (5.2). Но чтобы было ясно, даже если существует как традиционный, так и современный вариант кандзи, только один из них является правильным для любого конкретного человека. Ввод неправильного варианта кандзи может легко произойти, когда телефонный оператор вводит имена в базу данных, но в базе данных имен авторов это будет относительно редко, поскольку правильное написание автора можно проверить относительно легко.

Относительно вопроса о версии 5.6 (Кана против иероглифов):

Имя некоторых людей не имеет представления кандзи, только хирагана. Поскольку существует взаимно однозначное соответствие между хираганой и катаканой, есть большая вероятность, что оба варианта появятся в базе данных. Я рекомендую преобразовать всю хирагану в катакану (или наоборот) перед сравнением.

Однако имена большинства людей написаны кандзи. На обложке книги будут использоваться эти иероглифы, поэтому, скорее всего, они также будут использоваться в вашей базе данных. Единственные причины, по которым кто-то может ввести Кана вместо Кандзи: (а) когда он / она не знает правильного иероглифа (возможно, маловероятно, поскольку вы можете легко выполнить поиск на Amazon или что-то еще, чтобы узнать), (б) когда база данных создана для поисковых целей. Поисковые системы по каталогам книг могут включать версии катаканы, потому что это позволяет пользователям находить авторов, даже если они не знают правильного иероглифа. Следовательно, требуется ли вам преобразование кандзи-кана (что является сложной проблемой), зависит от первоначального назначения данных и того, как была создана база данных.

Что касается псевдонимов: есть псевдонимы, которые используются в повседневной беседе, но я сомневаюсь, что вы найдете их в базе данных авторов. Я понимаю, что есть языки (например, польский), в которых используются псевдонимы или уменьшительные (например, «Gosia» вместо «Małgorzata») почти обычным образом, но я бы не сказал, что это относится к японскому языку.

Что касается китайского языка: я не могу дать исчерпывающий ответ, но, по крайней мере, не существует всей проблемы вариации кандзи-кана, потому что китайский язык использует только кандзи (под именем Ханзи). Однако существует серьезная проблема с вариациями иероглифов (особенно между традиционными вариантами (используемыми на Тайване) и упрощенными вариантами (используемыми на материке)).

Что касается корейского: насколько мне известно, корейцы обычно могут писать свое имя на ханджа (= кандзи), хотя они не используют ханджа для большей части остального языка большую часть времени), но, очевидно, есть Тоже хангыльская версия названия. Я не уверен, в какой степени требуется преобразование ханджа-хангыль для решения такой проблемы очищения, как ваша. Если да, то это будет очень сложная проблема.

Что касается региональных вариантов: в японском языке нет региональных вариантов самих символов кандзи (по крайней мере, в наше время). Кандзи любого автора будут написаны одинаково по всей Японии. Конечно, есть определенные фамилии, которые в одном регионе встречаются чаще, чем в другом. Если вас интересуют сами имена (а не люди, к которым они относятся), региональные варианты (а также различия между традиционными и современными формами иероглифов) будут иметь значение.

09.04.2012

Замечательный исчерпывающий ответ на японском языке! Моя область - авторство публикации, поэтому я сомневаюсь, что в японском письме будут какие-либо западные имена - это безопасное предположение? Или жители Запада в Японии пишут свои имена кандзи? Я надеюсь, что это не так, поэтому я смогу избежать 5-2. Похоже, разделение имен на самом деле не будет полезно для CJK, учитывая 4. Является ли 5-6 основным типом вариации, которую вы можете себе представить между тем, как имена людей представлены в разных местах? Никнеймы есть? Есть ли шанс, что вы знаете, относится ли это также к корейскому и китайскому языкам? 09.04.2012

@MattLuongo: Я многое добавил в правке выше. Кроме того, о том, полезно ли разбиение: я думаю, что вам действительно не понадобится разбиение. В заказе всегда указывается фамилия, затем имя. Без дополнительных элементов. Даже если у вас есть одна версия имени, в которой полностью отсутствует имя, вы все равно можете сравнить с префиксом полного имени. Совпадение означает, что фамилии идентичны. 10.04.2012

2

В китайском языке большинство имен состоит из трех символов: первый символ - это фамилия (!), Два других символа - это личное имя, например, Мао Цзэдун = фамилия Мао и личное имя Цзэдун. Есть также некоторые двухзначные имена, первый символ - это фамилия, а второй символ - личное имя. 4-символьные имена встречаются редко, но обычно разбивается на 2–2.

Видя это, на самом деле не имеет большого смысла проводить анализ китайских имен с помощью n-граммов - тогда вы просто исследуете, какие китайские семейные / личные имена являются наиболее распространенными.

06.04.2012

Мой друг упомянул, что - возможно, мне стоит отредактировать, чтобы включить неявный дополнительный вопрос. Есть ли какое-нибудь представление о близости этих персонажей или какой-то другой подход, который имел бы смысл? Или я должен просто собрать их, используя точные совпадения? 06.04.2012

Для фонетической близости вы можете просто подключить свои данные к проекту CCDict с открытым исходным кодом. Для графического сходства существует идея, что символы состоят из радикала и одного или нескольких других элементов. Слишком много персонажей с одним и тем же радикалом, но вы можете сравнивать персонажей с такими же другими элементами - не уверен, что для этого есть ресурс, но они существуют, например, nciku.com использует его. Однако ни произношение, ни элементы не являются отличным показателем этимологии. 07.04.2012

3

Таким образом, сопоставление стиля биграммы - это распространенный способ поиска на японском языке, но есть более подходящие подходы, которые вы можете использовать для определения границ слов. В проекте, над которым я работал в прошлом, у нас были довольно хорошие результаты с mecab для японских брендов. и еще какой-то текст. Я полагаю, что вы могли бы добиться лучших результатов, тренируя его по списку японских имен. К сожалению, он на C, но мы все равно использовали его на Java через JNI, вы могли бы сделать что-то подобное в своем коде Python.

05.04.2012

Новые материалы

Кластеризация: более глубокий взгляд

Кластеризация — это метод обучения без учителя, в котором мы пытаемся найти группы в наборе данных на основе некоторых известных или неизвестных свойств, которые могут существовать. Независимо от..

Как написать эффективное резюме

Предложения по дизайну и макету, чтобы представить себя профессионально Вам не позвонили на собеседование после того, как вы несколько раз подали заявку на работу своей мечты? У вас может..

Частный метод Python: улучшение инкапсуляции и безопасности

Введение Python — универсальный и мощный язык программирования, известный своей простотой и удобством использования. Одной из ключевых особенностей, отличающих Python от других языков, является..

Как я автоматизирую тестирование с помощью Jest

Шутка для победы, когда дело касается автоматизации тестирования Одной очень важной частью разработки программного обеспечения является автоматизация тестирования, поскольку она создает..

Работа с векторными символическими архитектурами, часть 4 (искусственный интеллект)

Hyperseed: неконтролируемое обучение с векторными символическими архитектурами (arXiv) Автор: Евгений Осипов , Сачин Кахавала , Диланта Хапутантри , Тимал Кемпития , Дасвин Де Сильва ,..

Понимание расстояния Вассерштейна: мощная метрика в машинном обучении

В обширной области машинного обучения часто возникает необходимость сравнивать и измерять различия между распределениями вероятностей. Традиционные метрики расстояния, такие как евклидово..

Обеспечение масштабируемости LLM: облачный анализ с помощью AWS Fargate и Copilot

В динамичной области искусственного интеллекта все большее распространение получают модели больших языков (LLM). Они жизненно важны для различных приложений, таких как интеллектуальные..

Теги
Machine Learning JavaScript Blockchain Artificial Intelligence Data Science Cryptocurrency Software Development Python Web Development Coding Deep Learning AI Bitcoin React Software Engineering Ethereum Web3 Business Crypto Nodejs Solidity Development Front End Development Data Finance Money Java Trading Typescript Smart Contracts Productivity Tech Startup Investing Neural Networks Developer Computer Science NLP