PHP – Получить количество слов из загруженного документа Microsoft Word

Я пытаюсь захватить количество слов из загруженного слова doc (.doc, .docx, .rtf) но он всегда переносит раздражающее форматирование Word.

Кто-нибудь раньше занимался этой проблемой и знал, как ее решить? Благодаря 🙂

Вам необходимо:

  1. Различать тип файла

     $file_name = $_FILES['image']['name']; $file_extn = end(explode(".", strtolower($_FILES['image']['name']))); if($file_extn == "doc" || $file_extn == "docx"){ docx2text(); }elseif($file_extn == "rtf"){ rtf2text(); } 
  2. Преобразование документа в текст

    https://stackoverflow.com/a/7371315/2512934 для doc или docx http://webcheatsheet.com/php/reading_the_clean_text_from_rtf.php для rtf

  3. Подсчитайте слова http://php.net/manual/en/function.str-word-count.php