Удалите MS Word «HTML» с помощью PHP

Возможный дубликат:
Какой лучший способ очистки Word HTML?
PHP для очистки вставленного ввода Microsoft

Я разрешаю клиентам вводить заметки в текстовом редакторе и только недавно был обновлен до ckEditor 3x, который по умолчанию разделяет классы, стили и комментарии MS-слов (когда пользователи вставляются в объект редактора). Так что двигаться вперед я все настроен.

Недавно мне нужно было очистить записи на 5 лет, некоторые из которых содержат встроенный HTML-текст. Мне нужно пройти через этот текст и очистить его.

Мне не нужно выделять все теги span, только те, которые определены как написанные Microsoft.

Я пробовал использовать HTMLCleaner, но он не удаляет HTML-код, созданный MS. http://word2cleanhtml.com делает именно то, что я хочу, однако разработчики в настоящее время не предлагают API для общего пользования (по состоянию на 9 июля 2012 года).

Я искал такой класс и продолжал последние несколько недель, и мне не очень повезло. Кто-нибудь из вас нашел полезный класс, который вы хотели бы поделиться?

http://htmlpurifier.org/

Это сделает то, что вы хотите.