Я пытаюсь захватить количество слов из загруженного слова doc (.doc, .docx, .rtf)
но он всегда переносит раздражающее форматирование Word.
Кто-нибудь раньше занимался этой проблемой и знал, как ее решить? Благодаря 🙂
Вам необходимо:
Различать тип файла
$file_name = $_FILES['image']['name']; $file_extn = end(explode(".", strtolower($_FILES['image']['name']))); if($file_extn == "doc" || $file_extn == "docx"){ docx2text(); }elseif($file_extn == "rtf"){ rtf2text(); }
Преобразование документа в текст
https://stackoverflow.com/a/7371315/2512934 для doc или docx http://webcheatsheet.com/php/reading_the_clean_text_from_rtf.php для rtf
Подсчитайте слова http://php.net/manual/en/function.str-word-count.php