У меня есть pandas df со столбцом, в котором каждая ячейка содержит одну строку текста из пьес Шекспира (примерно 100 тыс. строк). Мне нужно найти точные термины (например, «Рим»), исключая шаблон, когда он появляется внутри другого слова (то есть не «Ромео»). Я не могу позволить себе исключить такие случаи, как «Рим». или «Рим?».
Я подошел ближе к строке ниже, определяя «Рим» как переменную, чтобы я мог легко заменить его другими терминами, но это все еще не совсем работает.
df[(df['COL'].str.contains(" " + VAR + " ")) | (df['COL'].str.contains(VAR + ";"))].nunique()