Я использую веб-урожай (http://web-harvest.sourceforge.net/), инструмент для очистки веб-страниц с открытым исходным кодом.
Регулярное выражение, которое я пытаюсь использовать, имеет символы «‹», «>» (потому что я пытаюсь удалить все входящие теги HTML). Это вызывает проблему, поскольку содержимое элементов должно состоять из правильно сформированных символьных данных или разметки.
Мне нужно как-то избежать регулярного выражения, но не могу понять, как это сделать.
Любые идеи?