Возможный дубликат:
Какой лучший способ очистки Word HTML?
PHP для очистки вставленного ввода Microsoft
Я разрешаю клиентам вводить заметки в текстовом редакторе и только недавно был обновлен до ckEditor 3x, который по умолчанию разделяет классы, стили и комментарии MS-слов (когда пользователи вставляются в объект редактора). Так что двигаться вперед я все настроен.
Недавно мне нужно было очистить записи на 5 лет, некоторые из которых содержат встроенный HTML-текст. Мне нужно пройти через этот текст и очистить его.
Мне не нужно выделять все теги span, только те, которые определены как написанные Microsoft.
Я пробовал использовать HTMLCleaner, но он не удаляет HTML-код, созданный MS. http://word2cleanhtml.com делает именно то, что я хочу, однако разработчики в настоящее время не предлагают API для общего пользования (по состоянию на 9 июля 2012 года).
Я искал такой класс и продолжал последние несколько недель, и мне не очень повезло. Кто-нибудь из вас нашел полезный класс, который вы хотели бы поделиться?
Это сделает то, что вы хотите.