СПОСОБ ИЗВЛЕЧЕНИЯ ПОЛЕЗНОГО КОНТЕНТА ИЗ УСТАНОВОЧНЫХ ФАЙЛОВ МОБИЛЬНЫХ ПРИЛОЖЕНИЙ ДЛЯ ДАЛЬНЕЙШЕЙ МАШИННОЙ ОБРАБОТКИ ДАННЫХ, В ЧАСТНОСТИ ПОИСКА
1. Способ извлечения полезного контента из установочных файлов мобильных приложений для дальнейшей машинной обработки данных, в частности поиска, содержащий этапы на которых:- загружают из Интернета на сервер установочный файл приложения неизвестного формата;- подбирают к нему разархиватор;- разархивируют загруженный установочный файл в каталог с файлами;- анализируют полученный каталог, составляют список файлов, содержащихся в нем;- выбирают из списка файл для дальнейшего анализа;- подбирают программное обеспечение для чтения файла;- анализируют выбранный файл на предмет поиска первичного контента;- формируют список адресов внутреннего размещения первичного контента в виде набора строк;- переходят к анализу следующего файла, до тех пор, пока в каталоге есть файлы;- проводят анализ текстового содержимого списка адресов внутреннего размещения первичного контента, и разделяют текст каждой строки на набор символов, идентифицирующих способ хранения соответствующей единицы контента, набор символов, идентифицирующий документ, к которому относится данная единица контента, и набор символов, идентифицирующий тип этой единицы контента;- разделяют строки адресов внутреннего размещения единицы контента по способу хранения на служебный контент и полезный контент;- служебный контент удаляют;- выделяют в оставшемся списке группы строк с адресами внутреннего размещения единиц контента, имеющие полностью совпадающие по месторасположению и тексту группы символов, отражающие способ хранения контента;- проводят статистическую фильтрацию выделенных групп;- проводят анализ текстового содержимого строк списка адресов