Авторефераты диссертаций >> Авторефераты по Иформатике

Математические модели ранжирования объектов налогового контроля

На правах рукописи

ПОЛУПАНОВ Дмитрий Васильевич МАТЕМАТИЧЕСКИЕ МОДЕЛИ РАНЖИРОВАНИЯ ОБЪЕКТОВ НАЛОГОВОГО КОНТРОЛЯ Специальность 05.13.18 Математическое моделирование, численные методы и комплексы программ

АВТОРЕФЕРАТ

диссертации на соискание ученой степени кандидата технических наук

Уфа 2007

Работа выполнена на кафедре вычислительной математики Башкирского государственного университета и на региональной кафедре математики и информатики филиала Всероссийского заочного финансово-экономического института в г. Уфе

Научный консультант: д-р тех. наук, проф.

ГОРБАТКОВ Станислав Анатольевич

Официальные оппоненты: д-р тех. наук, проф.

ЧЕРНЯХОВСКАЯ Лилия Рашитовна канд. тех. наук, доцент ЗОЗУЛЯ Юрий Иванович

Ведущая организация: Институт математики с ВЦ Уфимского научного центра РАН

Защита состоится 25 мая 2007 г. в 1000 часов на заседании диссертационного совета Д-212.288. в Уфимском государственном авиационном техническом университете по адресу: 450000, г. Уфа, ул. К. Маркса,

С диссертацией можно ознакомиться в библиотеке университета

Автореферат разослан апреля 2007 г.

Ученый секретарь диссертационного совета, д-р тех. наук, проф. В.В. Миронов ПОЛУПАНОВ Дмитрий Васильевич МАТЕМАТИЧЕСКИЕ МОДЕЛИ РАНЖИРОВАНИЯ ОБЪЕКТОВ НАЛОГОВОГО КОНТРОЛЯ Специальность 05.13. Математическое моделирование, численные методы и комплексы программ АВТОРЕФЕРАТ диссертации на соискание ученой степени кандидата технических наук

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность темы Существующие принципы налогообложения и методики контроля правильности исчисления и уплаты налогов часто не позволяют выявить реальную налогооблагае мую базу, не в полной мере обеспечивают решение фискальных задач и реализацию принципа справедливости налоговой системы. Повышение уровня объективности и эффективности работы налоговых органов в условиях существенного искажения дан ных налоговых деклараций, дефицита наблюдений и т.д. требует совершенствования технологий налогового контроля с использованием современных инструментариев математического моделирования и искусственного интеллекта, например таких, как нейронные сети, вероятностные методы оценки риска.

Вопросам управления налогообложением в аспекте моделирования процессов сбо ра налогов и оценки добросовестности отдельных налогоплательщиков посвящены работы А.Б. Паскачева, Т.Н. Скорика, А.Б. Соколова, Д.Г. Черника. Проблемы ин теллектуального управления и нейросетевого моделирования экономических объектов исследованы в трудах отечественных ученых В.И. Васильева, А.А. Ежова, Б.Г. Илья сова, Л.А. Исмагиловой, С.Т. Кусимова, С.А. Терехова, С.А. Шумского, Л.Р. Черня ховской, Н.И. Юсуповой, зарубежных ученых И.С. Абу-Мустафы, Д.-Э. Бэстенса, В. М. ван ден Берга, Д. Вуда. Теоретические и прикладные аспекты нейросетевого моде лирования налогового контроля рассмотрены в ряде работ Н.Д. Бублика, Г.И. Букае ва, И.И. Голичева, С.А. Горбаткова, А.Н. Романова. Общие вопросы теории нейрон ных сетей и нейрокомпьютинга изложены в работах А.И. Галушкина, А.Н. Горбаня, В.Л. Дунина-Барковского, Г.Г. Малинецкого, Э. Баррона, А.Г. Ивахненко, Т. Кохоне на, Ф. Розенблата, С. Хайкина и других ученых нашей страны, ближнего и дальнего зарубежья.

Однако несмотря на имеющиеся разработки в области нейросетевого моделирова ния для стохастических объектов с сильнозашумленными данными, в частности объ ектов налогового контроля, методы и принципы построения эффективных, адекват ных, качественных нейросетевых математических моделей (НСМ) разработаны не в полном объеме. Уровень объективности оценок в существующих информационных технологиях налогового контроля не соответствуют запросам практики и потенциаль ным возможностям современного математического аппарата. Учитывая вышеизло женное, актуальной научной задачей является разработка гибридных нейросетевых моделей (ГНСМ), служащих основой синтеза плана выездных проверок.

Цель работы – разработка научных основ информационной технологии ранжиро вания объектов налогового контроля при синтезе плана отбора налогоплательщиков для проведения выездных проверок.

Задачи исследования 1. Исследование возможности нейросетевой аппроксимации многомерных функ циональных зависимостей в условиях сильного зашумления данных (и даже частично го сознательного их искажения) и дефицита наблюдений.

2. Разработка концепции построения эффективных, адекватных ГНСМ на основе общесистемных закономерностей кибернетики, разработка методов предпроцессорной обработки данных и оценки адекватности ГНСМ.

3. Разработка рабочего алгоритма ранжирования экономических объектов с сильноза шумленными данными на основе ГНСМ.

4. Построение прикладных ГНСМ ранжирования объектов налогового контроля, экс периментальная апробация и верификация ГНСМ.

Методы исследования Работа основана на положениях и методах функционального анализа, положениях об щей теории систем, методах теории нейросетевого моделирования, классических методах теории вероятности и математической статистики.

На защиту выносятся 1 Метод синтеза плана отбора налогоплательщиков для проведения выездных прове рок на основе ГНСМ.

2. Метод предпроцессорной обработки данных, разработанный на основе системного подхода, который позволяет обеспечить приемлемый уровень достоверности получаемых оценок при сильном искажении базы данных (БД). Данный метод основывается на пред ложении об управлении качеством НСМ на ранних стадиях ее построения и включает в себя процедуры оптимальной кластеризации БД и очистки кластера от аномальных на блюдений по векторному критерию точности, устойчивости и детерминированности.

3. Вероятностный критерий ранжирования объектов налогового контроля по числовой мере искажения ими отчетной документации с внесением в него эвристической априорной информации, полученной на основе использования доверительных интервалов для откло нений между расчетными (полученными с помощью НСМ) и декларированными значе ниями моделируемого показателя, что позволяет повысить достоверность процедуры ран жирования.

4. Метод модифицированного обобщенного перекрестного подтверждения (МОПП) ГНСМ по финишному критерию совпадения множеств проранжированных налогопла тельщиков для нескольких независимых НСМ с заданной доверительной вероятностью.

Метод МОПП служит основным инструментом анализа и подтверждения адекватности ГНСМ.

5. Рабочий алгоритм ранжирования стохастических объектов с сильнозашумленными данными, который применительно к ранжированию объектов налогового контроля по числовой мере искажения ими отчетной документации служит инструментарием принятия решений о включении налогоплательщика в план проведения выездных проверок.

Научная новизна работы 1. Новизна метода синтеза плана отбора налогоплательщиков для проведения выезд ных проверок заключается в использовании «эталона» - производственной функции кла стера налогоплательщиков, полученной с помощью ГНСМ. Это позволяет выявлять нару шения в налоговых декларациях и получать объективные оценки финансового состояния налогоплательщиков путем извлечения знаний об искаженных входных факторах и вы ходной величины через другие, неискаженные.

2. Новизна метода предпроцессорной обработки данных заключается в процедурах управления качеством НСМ на ранних стадиях ее построения путем многоуровневого иерархического структурирования модели. Процедура оптимальной кластеризации увяза на с качеством обучения НСМ, что позволяет структурировать БД, повышая ее однород ность. Процедура очистки образованных кластеров увязывает удаление аномальных на блюдений с качеством обучения НСМ. Очистка БД для построения НСМ от аномальных наблюдений по критерию точности, первоначально предложенная совместно с Г.А. Бес хлебновой [3], дополнена введением критериев устойчивости и детерминированности [18], [5]. Предложенная процедура позволяет увеличить однородность данных внутри об разованных кластеров. В целом предложенный метод позволяет получить НСМ с прием лемыми аппроксимативными свойствами для сложных условий моделирования (сильное зашумление БД вплоть до ее сознательного искажения, отягченное дефицитом наблюде ний, неконтролируемой внутренней структурой объекта и др.).

3. Новизна критерия ранжирования объектов налогового контроля заключается в веро ятностном принципе ранжирования, что позволяет учитывать эвристическую априорную информацию, предысторию и масштаб деятельности налогоплательщика. Предложенный критерий позволяет получить план выездных проверок в аспекте ожидаемых доначисле ний.

4. Новизна метода МОПП заключается в сравнении множеств проранжированных на логоплательщиков для независимых моделей, основанных на НСМ различных типов, от личающихся числом скрытых слоев нейросети (НС), числом нейронов в них, видом акти вационных функций с заданной доверительной вероятностью. Это позволяет оценить аде кватность построенных ГНСМ в условиях нарушения предпосылок регрессионного анали за.

5. Новизна рабочего алгоритма ранжирования стохастических объектов с сильноза шумленными данными состоит в том, что в него введены дополнительные процедуры итерационного взаимодействия традиционных операций обучения и тестирования НС с операциями предобработки данных и обеспечения адекватности.

Практическая значимость работы Полученные в диссертационной работе результаты могут быть использованы для ре шения практических задач ранжирования сложных стохастических объектов с сильноза шумленными данными. В частности, результаты ранжирования объектов налогового кон троля могут служить основой производственного плана выездных проверок.

Результаты диссертационного исследования, в том числе технология математическо го моделирования по созданию НСМ аппроксимации производственной функции и ве роятностной модели ранжирования (ВМР) объекта налогового контроля в специфиче ских условиях, могут быть также использованы и для более широкого класса задач, не рассматриваемых в диссертации (прогнозирование экономических показателей налого плательщика и оптимизация его финансового состояния, оценка ожидаемой суммы до начислений, ранжирование корпоративных заемщиков при предоставлении им кредитов, оптимальное бюджетирование муниципальных образований при ограничении бюджет ных средств региона и др.).

Апробация работы и публикации Основные положения диссертации докладывались на следующих научных конферен циях: Международной научной конференции «Математические модели и методы их ис следования», Красноярск, 1999 г.;

Международной научной конференции «Моделирова ние, вычисления, проектирование в условиях неопределенности», Уфа, 2000 г.;

Шестой Международной научно-технической конференции студентов и аспирантов «Радиоэлек троника, электротехника и энергетика», Москва, 2000 г.;

Республиканской конференции студентов и аспирантов по математике, Уфа, 2000 г.;

Международных научных конферен циях «Континуальные логико-алгебраические и нейросетевые методы, 2000 и 2001», Уль яновск;

Региональной школе-конференции для студентов, аспирантов и молодых ученых по математике и физике, Уфа, 2001 г.;

Втором, Третьем, Пятом, Шестом и Седьмом Все российских симпозиумах по прикладной и промышленной математике (2001-206 г.г.);

VIII Всероссийской конференции «Нейрокомпьютеры и их применение» НКП-2002 с между народным участием, Москва, 2002 г.;

VIII и XI Всероссийских научно-технической конфе ренциях «Нейроинформатика – 2006 и 2007», Москва;

V Всероссийской научно практической конференции «Проблемы и перспективы российской экономики», Пенза, 2006 г.;

Международной научно-практической конференции «Современные направления теоретических и прикладных исследований», Одесса, 2006 г.

Основное содержание диссертации отражено в 22 опубликованных работах общим объемом 16,56 п.л. в том числе автора 8,12 п.л., из них 5 публикаций в рецензируемых журналах из списка ВАК.

Структура и объем работы Диссертация состоит из введения, четырех глав, заключения, списка используемой ли тературы из 124 наименований, 2 приложений и содержит 171 страниц основного текста, 29 рисунков, 22 таблицы.

Благодарности Автор благодарит директора филиала Всероссийского заочного финансово экономического института в г. Уфе, д-ра экон. наук, проф. Н.Д. Бублика и д-ра физ.-мат.

наук, проф. И.И. Голичева за ценные советы по обсуждению работы.

ОСНОВНОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении обосновывается актуальность темы исследования, сформулированы ос новные результаты, выносимые на защиту, с обоснованием их новизны, достоверности, теоретической ценности, практической значимости.

В первой главе проводится исследование возможности нейросетевой аппроксимации многомерных функциональных зависимостей в условиях искажения данных и дефицита наблюдений применительно к объектам налогового контроля. Исследуются существую щие технологии налогового контроля, традиционные способы отбора налогоплательщиков для выездных налоговых проверок. Уделяется внимание статистическим методам отбора налогоплательщиков. Делается вывод о существенном влиянии субъективного фактора в существующих технологиях налогового контроля.

Ставится следующая задача ранжирования объектов налогового контроля. Пусть вы делена примерно однородная группа из G объектов налогового контроля (налогоплатель щиков). За ретроспективный промежуток времени Т имеется БД Z X, Y, i 1, N ;

i N G T, составленная на основе налоговых деклараций и бухгалтерской отчетности.

Требуется выбрать небольшое число существенных признаков – входных факторов X ( X 1,, X n ), таких как сумма основных средств, себестоимость, среднесписочная численность сотрудников, коммерческие расходы и др., а также выходную моделируемую величину Y, в качестве которой может выступать выручка предприятия, и построить неко торую достаточно информативную НСМ, связывающую входные и выходные величины, y C[ ], n (1) y F ( x,W ( x, y)), x,y где x ( x1,, xn ) – конкретная численная реализация случайного вектора входных фак торов X ;

y – декларируемая налогоплательщиком конкретная числовая реали зация наблюдаемой выходной случайной величины Y;

y – эталон – расчетное значение величины Y;

{W} – множество оцениваемых синаптических весов НС;

– множество значений вектора входных факторов, – множество декларированных значений выход ной величины, – множество расчетных по (1) значений выходной величины.

Под «достаточной информативностью» НСМ понимаются ее дискриминантные свой ства, т.е. возможность надстройки модели (1) некоторым функционалом от y, который бы позволял выявлять в сильно зашумленной и даже искаженной БД нарушителей налого вого законодательства с требуемым уровнем доверительной вероятности. С дискрими нантными свойствами связана основная системообразующая экономико–математическая концепция предлагаемого подхода к построению модели ранжирования налогоплательщи ков, основанная на двух предложениях.

Первое предложение: нарушения в налоговой декларации эффективнее выявляются не путем автономного анализа отдельно взятого налогоплательщика, как это делается в суще ствующих методиках, а путем сравнения производственных функций достаточно одно родного кластера налогоплательщиков. Сравнительный анализ реализуется путем порож дения эталонного (среднего для кластера) значения оценки моделируемой производствен ной функции или «фона» y ( x) с помощью модели (1) и вычисления для всех объектов налогового контроля отклонений в каждом наблюдении с номером i на момент оценки (2) yi yi yi.

i Второе предложение состоит в вероятностном принципе ранжирования налогопла тельщиков. Строится ВМР на основе вероятностного критерия ~ ~ ) Mg, (3) P( g g gt TC tt ~ где gt U – значение верхней границы доверительного интервала для отклонения gt i, в записи ~отклонения фиксируется номер налогоплательщика g и момент ( gt gt наблюдения t);

P( g ) – вероятность того события, что ожидаемое значение отклоне ния g моделируемой случайной величины y будет не меньше выборочного среднего с учетом его смещения на полуширину доверительного интервала для g ;

в момент времени t TC осуществляется ранжирование налогоплательщика, т.е. это – момент провер ки, соответствующий последнему кварталу подачи декларации налогоплательщиком;

M g – экспертно задаваемый коэффициент масштаба g-го налогоплательщика.

Во взаимодействии НСМ и ВМР строится ГНСМ ранжирования объектов налогового контроля, схематично представленная на рисунке 1.

Рисунок 1. ГНСМ ранжирования объектов налогового контроля На основе этих идей осуществлена формализованная запись ГНСМ ранжирования экономических объектов с сильнозашумленными данными в виде F4 F3 F2 F1 ( X, Y ), (4) где F3 F2 F1 – композиция операторов НСМ аппроксимации производственной функ ции экономического объекта, представляющая в конечном счете оператор F в формуле (1);

F4 – оператор ВМР;

– множество проранжированных на основе вероятностного критерия (3) экономических объектов. Вид операторов, составляющих модель (4) и сущность мно жества раскрываются во второй главе диссертации (см. ниже формулы (7)-(9) и (16)).

Осуществлен анализ условий моделирования. Показано, что для объектов налогового контроля характерно сознательное искажение данных налоговых деклараций, изменчи вость внутренней структуры налогоплательщиков, стохастическое влияние вешней среды, существенная связь входных факторов.

Исследован вопрос о влиянии взаимной стохастической зависимости компонент век тора входных факторов на качество обучения НСМ. Отмечено, что для НСМ она не явля ется критичной, в отличие от регрессионных моделей, получаемых с помощью метода наименьших квадратов.

Исследована проблема, связанная с аппроксимацией функции многих переменных с помощью НС в специфических условиях моделирования.

Исследованы проблемы, связанные с устойчивостью НСМ по возмущению входных данных. Определена чувствительность НСМ к возмущениям входных данных при иска жении обучающего множества НС. Величину, характеризующую меру интенсивности j 1, n возмущения определим как: A. Здесь A – матрица наблю (k ) A( k ) aij A i 1, N lea rn дений, составляющих обучающее множество НС, ain 1 yi, aij xij, j 1, n, ~ N lea ln n ~( j 1,n – возмущенное обучающее множество, A( k ) aijk ) aij, A i 1, Nlearn i1 j ~ ~( aij( k ) (k ), i 1, N learn. Возмущения – случайные величи, j 1, n, aink )1 (k ) aij ain 1 j ij ны, распределенные по нормальному закону: (k ) ~ N ( k X j ;

k S X ), j 1, n, j j ~ N (k Y ;

k SY ). Параметр k Q характеризует интенсивность возмущений, множе (k ) ство параметров Q определяется произвольно, например, Q 0,5;

1,5;

2,5;

Определим ошибку обобщения НСМ как N test E (k ) y (k ) yi y y, y (5) i где y ( k ) – значение выходной величины, соответствующее мере интенсивности возмуще ний (k ) Определение: Будем говорить, что отображение (1) устойчиво при возмущении обучающего множества в смысле ошибки обобщения (5), если для мер интенсивности возмущений (l ), ( p) существует константа K 0 такая, что имеет место априорная оценка: E ( l ). При этом выполнено условие E ( p) (l ) ( p) K ( l 1) (l ) ( l 1) (l ) ( E (l ) E (l 1) ) ( (l ) ( l 1) (E E )( ), 0, (6) где - сколь угодно малое число.

Утверждение: Существует величина cr такая, что если ( k ) cr, то отображе ние (1) устойчиво при возмущении обучающего множества, т.е. выполнено условие (6).

Если ( k ) cr, то условие (6) нарушается и НСМ не устойчива.

Достоверность данного утверждения численно обоснована на модельном примере при варьировании меры интенсивности возмущений, числа искаженных строк и столбцов мат рицы A. На оси абсцисс рисунка 2 указано значение (k ), на оси ординат – рассчитанное по (5) E(k ). Из рисунка 2А следует, что при 2,1526 свойства устойчивости НСМ в (k ) указанном выше смысле теряются. При варьировании доли числа искаженных строк мат ~ рицы A( k ), в случае k=0,5 (рисунок 2Б) при (k ) 0,4060, угол наклона кривой возрастает на два порядка, модель теряет свои аппроксимативные свойства. Аналогично, при варьи ровании доли искаженных столбцов (рисунок 2В) по достижению (k ) 0,2924, угол наклона кривой возрастает на два порядка, НСМ теряет устойчивость.

А В Б Рисунок 2. Исследование зависимости E( ) при варьировании меры интенсивности (k ) ~ возмущений (А), числа искаженных строк (Б) и столбцов (В) матрицы A.

(k ) (k ) Во второй главе разрабатываются метод предпроцессорной обработки данных для построения ГНСМ ранжирования объектов налогового контроля (3) на основе системного подхода, который позволяет получить эффективные модели для сложных условий модели рования, и метод МОПП оценки адекватности ГНСМ. На базе указанных методов с ис пользованием общесистемных закономерностей кибернетики предложена концепция по строения ГНСМ для решения задач ранжирования объектов налогового контроля. Предла гаются и обосновываются 1) управление качеством НСМ на ранних стадиях ее построения путем многоэтапного структурирования модели на основе общесистемной закономерности роста и убывания энтропии;

2) использование общесистемной фоновой закономерности для повышения однородности исходной БД;

3) построение вероятностного критерия ран жирования налогоплательщиков, основанного на общесистемных закономерностях асим метрии и неполного подавления побочных дисфункций структурирования информацион ной системы, который позволяет получить план выездных проверок в аспекте ожидаемых доначислений;

4) метод МОПП оценки адекватности ГНСМ по финишному критерию совпадения множеств проранжированных налогоплательщиков для нескольких независи мых моделей с заданной доверительной вероятностью.

Из общесистемного закона роста и убывания энтропии в открытых системах следует, что энтропия открытой системы может быть уменьшена только в том случае, если она взаимодействует с другими системами. Следовательно, при структурировании БД в НСМ нужно ввести негэнтропию (информацию) с помощью специальных способов предобра ботки данных, реализующих многоуровневое иерархическое структурирование модели, схема которого представлена на рисунке 3.

На трех иерархических уровнях структурирования модели реализуются специальные способы предобработки данных, повышающие однородность БД и улучшающие качество обучения НСМ.

Нулевой уровень структурирования модели, который является основой предложенной техно логии построения НСМ, – это образование струк туры из рационально взаимодействующих эле ментов – данных деклараций налогоплательщи ков. Достигаемый эффект – получение производ ственной функции (1) кластера налогоплательщи ков, причем с активной эксплуатацией свойств нелинейной взаимосвязи сознательно искаженных факторов.

На первом иерархическом уровне структури рования предложена оптимизационная итераци онная процедура кластеризации исходной БД, которая, в отличие от традиционных методов кластеризации, увязана с качеством обучения НСМ. Итогом процедуры является образование в исходной БД оптимального числа достаточно однородных кластеров. Получаемый синергетиче ский эффект данного уровня - создание предпо сылок получения НСМ хорошего качества при сложных условиях моделирования.

Рисунок 3. Многоуровневое ческое структурирование модели Оператор оптимальной кластеризации имеет вид Q Z, (7) F1 : Z q q X, Y, i 1, Nq – БД q-го кластера, Q* – оптимальное число кластеров.

где Zq i На втором иерархическом уровне предложена оптимизационная итерационная проце дура очистки кластера исходных данных от аномальных наблюдений по векторному кри терию точности, устойчивости и детерминированности вспомогательных НСМ (субмоде лей) каждого кластера, основанная на общесистемной фоновой закономерности. В отличие от традиционных методов устранения аномальных наблюдений, никак не связанных с дальнейшим обучением моделей, предложено увязывать эти процедуры, поскольку уда ляемые аномальные точки имеют разную информативность в аспекте обучения НСМ, так как БД сильно искажена.

Оператор очистки кластера вводится следующим образом * F2 : Z q Zq, (8) * где Z q X, Y, i 1, Nk – БД очищенного кластера, k – номер оптимальной итерации.

i Наконец третий, последний уровень структурирования – это определение оптималь ной архитектуры НСМ, вида активационных функций и параметров обучения. Процедуры третьего уровня завершаются построением рабочей модели на БД однородного очищенно го кластера. На данном этапе можно получить эффективную НСМ только в том случае, если успешно реализованы предшествующие первый и второй уровни структурирования.

Оператор рабочей НСМ следующий, F3 : Z q (9) где Z q, q 1, Q – БД q-го кластера, y f ( x, (W ( x, y)) – расчетное значение выходной величины на основе рабочей НСМ, полученной на оптимальной итерации очистки q-го кластера.

Итерационная процедура оптимальной кластеризации заключается в следующем.

Требуется найти оптимальное число кластеров из условия:

Nq Q d i2,k min max E ( q ) (Q, d i,k ) Q* : min (10) di, k Q q q 1 i,k при ограничениях на число наблюдений в кластере (11) ( N q / n) и критическое значение ошибки обобщения ( q) Emax E. (12) Критерий E ( q ) y ( q ) y y – ошибка обобщения НСМ. Она вводится аналогично (5) и учитывает суммарный вклад взаимосвязанных факторов в обучение НСМ Критерий d – евклидовы расстояния между элементами в кластере – учитывает общность элементов по масштабу и условиям их хозяйственной деятельности.

Поисковый алгоритм решения многокритериальной задачи оптимизации строится как итерационный процесс пошагового увеличения числа кластеров. На каждом Q-ом шаге итерации при фиксированном числе кластеров Q методом k-средних образуются кластеры и, соответственно, минимизируется критерий плотности расположения элементов. Затем для каждого из образованных q кластеров строятся НСМ (субмодели) и вычисляется ошибка обобщения Е(q) по (5). Строится кривая Emax как функция от числа кластеров Q.

(q) Итерационный процесс останавливается по двум правилам: 1) либо ошибка обобщения достигает минимума и на следующем шаге итерации Q+1 начинает расти;

2) либо наруша ется условие (9).

Справедливость вышеизложенного ут верждения обоснована численно на при мере модели зависимости выручки от шести входных факторов.

Строилась НС типа многослойный пер септрон (MLP) с двумя скрытыми слоя ми, активационной функцией сигмоид f (s) 1 exp( as),a 0 в них, в выходном – линейной. Значение максимальной ошибки обобщения на каждой итерации кластеризации представлено на рисунке Рисунок 4. Зависимость максимальной ошибки 4. Найдено оптимальное число кластеров обобщения E от номера итерации Q.

q q 2, Emax 0.0476.

ma x Итерационная процедура очистки образованных кластеров от аномальных наблюдений заключается в следующем: требуется найти номер оптимальной итерации очистки класте ра (k ) (k ) (k ) min, (13) k:, i 1, N k i k при ограничениях, которые вводятся аналогично (11), (12), (14) ( N k / n) E( k ) E, (15) Итогом процедуры является устранение аномальных наблюдений в каждом кластере, для которых относительное значение отклонения i( k ) ( y ( k ) i yi ) yi 100% (k ), (где – экспертно задаваемый верхний предел приемлемого уровня погрешности) с опре (k ) делением оптимальной итерации в условиях дефицита наблюдений. Итерационный процесс, который, по сути, является численным методом оптимального сглаживания данных в кластере, останавливается по правилу: а) либо нарушается условие репрезента тивности выборки в данном кластере (13);

б) либо достигается минимум обобщенного критерия Ф;

в) либо достигается допустимый уровень ошибки обобщения – выполняется условие (14).

Обобщенный критерий Ф, представляет собой линейную свертку из трех частных критериев: Ф C1E C2 S C3 R.Здесь Сm – экспертно назначаемые весовые коэффици енты, характеризующие вклад в процесс оптимизации каждого частного критерия Cm 1;

Cm 0. Критерий E ( k ) y ( k ) y y характеризует точность субмоделей, m т.е. является ошибкой обобщения, аналогичной (5). Критерий S характеризует устойчи вость субмоделей, он вводится как аналог константы Липшица Rn, где векторы близки по норме в x,x Sy y xx n R F x, W, - расчетные значения l-го компонента выходной величины y F x,W, y (1) в точках наблюдений, ;

test – множество индексов {i}, которым соответствуют наблюдения, вошедшие в тестовое множество НС;

, – конкретные значения индексов.

Критерий R определен по аналогии с коэффициентом детерминации, R 1 ry, y, (( k ) где ry, y - коэффициент корреляции между декларированными и расчетными значения (k ) ми выходной величины.

Указанное утверждение доказано числен но на примере модели зависимости вы ручки от восьми входных факторов.

Строилась НС типа MLP с двумя скрыты ми слоями, активационной функцией сиг моид f (s) 1 exp( as),a 0 в них, в вы ходном – линейной. Сводная характери стика каждой итерации представлена на рисунке 5. Номер оптимальной итерации Рисунок 5. Зависимость частных критериев очистки кластера – 3, значение критерия точности E, устойчивости S, детерминиро 0.0661.

ванности R и финишного критерия Ф от номера итерации k По результатам вычисления отклонений (2) с помощью рабочей НСМ (9) строится ВМР объектов налогового контроля, оператор которой F4 :. (16) Ранжирование объектов налогового контроля заключается в присвоении каждому налогоплательщику ранга в соответствии с -критерием (3), показывающего степень нарушения им налогового законодательства. Требуется найти множество номеров нало G* гоплательщиков max, планируемых для проведения выездной g: g g G* проверки, чтобы функционал ранжирования был максимальным. Это позво g ляет получить план выездных проверок в аспекте ожидаемых доначислений.

Рассмотрена сущность методов обобщенного перекрестного подтверждения (ОПП) оценки адекватности НСМ и МОПП оценки адекватности ГНСМ. В качестве эталона D сравнения параллельных НСМ введем среднее значение отклонений: d D, i i d i 1, N. Для НСМ типа d проверим выполнение неравенства допустимого уклонения от «эталона» d * ( ) ? (17) i i i Здесь – экспертно задаваемый уровень ошибки. Для каждой НСМ типа d рассчиты * вается величина P d N d N, где N d –число наблюдений, удовлетворяющих условию (17). Если P d P, то НСМ типа d удовлетворяет процедуре ОПП. Здесь P * – экс пертно задаваемый уровень доверительной вероятности.

Суть МОПП заключается в сравнении планов отбора:

G* по множеству D* параллельных моделей, уже d d g: max, d 1, D g g прошедших ОПП. Если для независимых ГНСМ типов d и d G** номеров налогопла d d тельщиков из G* возможных, отобранных в оптимальные планы и,, попадают в отрезок 1;

G* независимо от порядка их следования, то считается, что процедура МОПП подтверждена с доверительной вероятностью P MGCV G** G*, G** G*. Для D** ГНСМ, прошедших МОПП, расчетное значение доверительной вероятности PMGCV сравнивается с заданной доверительной вероятно стью p **, если P MGCV p**, процедура МОПП считается выполненной.

В третьей главе описывается рабочий алгоритм ранжирования экономических объ ектов с сильнозашумленными данными на основе ГНСМ. Приводится общее описание алгоритма и составляющих его вспомогательных процедур – оптимальной кластериза ции, очистки кластера от аномальных наблюдений, построения рабочей НСМ и расчета доверительного интервала, ОПП, расчета -критерия (3), ранжирования объектов нало гового контроля на основе -критерия, МОПП, окончательного ранжирования. Логиче ская схема алгоритма представлена на рисунке 6.

Рисунок 6. Логическая схема рабочего алгоритма ранжирования экономических объектов с сильнозашумленными данными применительно к ранжированию объектов налогового контроля Четвертая глава посвящена решению прикладных задач ранжирования объектов на логового контроля на основе разработанной ГНСМ. Построены ГНСМ ранжирования на логоплательщиков на выборках, обозначенных как Z и Z. Выборка Z содержит наблюдение. Входные факторы: Х1 - сумма основных средств, тыс. руб;

Х2 - себестоимость товаров, продукции, услуг предприятия, тыс. руб;

Х3 - среднесписочная численность рабо тающих, чел.;

Х4 - сумма оборотных активов, тыс. руб;

Х5 - среднегодовая стоимость обла гаемого налогом имущества предприятия, тыс. руб;

Х6 - коммерческие расходы, тыс. руб.

Выходная величина Y - выручка предприятия, тыс. руб. Выборка Z - 201 наблюдение.

Входные факторы: Х1 - сумма основных средств, тыс. руб;

Х2 -износ (амортизационные отчисления) за квартал, тыс. руб;

Х3-оборотные активы, тыс. руб;

Х4- запасы тыс. руб;

, Х5 среднесписочная численность работающих, чел.;

Х6-дебиторская задолженность, тыс. руб;

Х7 - коммерческие расходы за квартал, тыс. руб;

Х8- себестоимость реализации товаров за квартал, тыс. руб. Выходная величина Y - выручка предприятия, тыс. руб. Исходные дан ные взяты из монографии Г.И.Букаева, Н.Д.Бублика, С.А.Горбаткова, Р.Ф. Саттарова «Мо дернизация системы налогового контроля на основе нейросетевых информационных тех нологий», М.: Наука, 2001. Результаты ранжирования на этих выборках представлены на рисунке 7, где на оси абсцисс обозначены коды предприятий-налогоплательщиков в вы борке, на оси ординат – значение -критерия (3).

А Б Рисунок 7. Результаты ранжирования налогоплательщиков на выборках Z (А) и Z (Б).

Проведена верификация ГНСМ на шести натурных объектах, результаты которой от ражены в таблице 1. Здесь использованы реальные исходные данные, состав факторов и результаты моделирования НСМ выручки из работы [14].

Таблица 1. Результаты верификации ГНСМ по поверочному эксперименту Код предприятия Сумма доначис лений по реше нию ИФНС Yд Yвп 100% 100% Y вп 1 858,7 1940,6 4293,5 3434,8 400% 126% 2 113,5 107,8 113,5 0 0,00% 5% 3 328613 656613 527869 199256 60,64% 99,81% 4 7328 7865,3 7328 0 0,00% 7,3% 5 5591 5216,158 5591 0 0,00% -6,7% 6 907 825,9 909 2 0,22% -8,9% В таблице 1: Yд – значение выходной величины, декларированное плательщиком;

Yв п – значение выходной величины, уточненное в ходе выездной проверки с учетом доначислении;

Y – осредненное по шести ГНСМ расчетное значение выходной величины;

(Yвп Yд ) Yд – относительное отклонение между декларированным и вп скорректированным в ходе выездной проверки значением выходной величины;

– откло нение, определяемое по (2). Предприятия с кодом 1 и 3 были классифицированы как «на рушитель». Летом 2002 г. на этих предприятиях были организованы выездные проверки, подтвердившие данные моделирования. Таким образом, модель достоверно распознает как нарушителей, искажающих документацию, так и законопослушных налогоплательщиков.

Независимым подтверждением адекватности ГНСМ служат результаты срав нения полученного на ее основе плана отбора налогоплательщиков для 18 прове ряющих бригад с планом отбора, полученным по альтернативной модели непара метрического сглаживания Estimation Tax (Голичев И.И. Вариков А.А. Свидетель ство № 2006616133 об официциальной регистрации программы для ЭВМ. Аппрок симация регрессионной зависимости. М.: РосПатент, 2006). В таблице 2 приведе ны коды налогоплательщиков, включенных в планы отбора по обеим моделям.

Совпадения обозначены заливкой.

Таблица 2. Сравнение ГНСМ с альтернативной моделью отбора ГНСМ 41 35 26 43 66 68 11 27 40 73 18 25 71 52 46 57 Estimation 41 60 21 35 11 26 43 18 40 73 68 27 71 46 25 66 Tax Как следует из таблицы 2, по каждой модели совпадают 15 объектов налогового кон троля из 18, т.е. модели взаимно подтверждают друг друга на 83 %.

В заключении подводятся основные итоги выполнения диссертации.

В приложениях приводятся исходные данные, использованные для построения ГНСМ.

ОСНОВНЫЕ РЕЗУЛЬТАТЫ И ВЫВОДЫ 1. Разработан метод синтеза плана отбора налогоплательщиков для проведения выезд ных проверок, основанный на использовании полученного с помощью ГНСМ «эталона» – оценки производственной функции кластера налогоплательщиков.

2. Предложен оригинальный метод предпроцессорной обработки данных, реализован ный в разработке специальных процедур, без использования которых построение адекват ных моделей с приемлемыми аппроксимативными свойствами не представляется возмож ным. Предложены процедуры оптимальной кластеризации и оптимальной очистки класте ра от аномальных наблюдений на первом и втором иерархических уровнях структурирова ния, повышающие однородность БД.

3. Разработан вероятностный критерий ранжирования объектов налогового контроля по числовой мере искажения ими отчетной документации с внесением в него эвристиче ской априорной информации, полученной на основе использования доверительных интер валов для отклонений между расчетными (полученными с помощью НСМ) и деклариро ванными значениями моделируемого показателя.

4. Разработан метод МОПП ГНСМ по финишному критерию совпадения множества проранжированных налогоплательщиков для нескольких независимых моделей с задан ной доверительной вероятностью. Данный метод служит основным инструментом анализа и подтверждения адекватности ГНСМ.

5. Разработан алгоритм ранжирования экономических объектов с зашумленными данными на базе ГНСМ.

6. Теоретические предложения по разработке технологии ранжирования объектов на логового контроля апробированы путем построения ГНСМ на реальных числовых данных.

Осуществлена проверка адекватности НСМ с помощью процедуры ОПП и ГНСМ с помо щью процедуры МОПП. Положительные результаты верификации модели на натурных объектах (таблица 1), показавшие правильное распознавание, как «нарушителей», так и законопослушных налогоплательщиков, являются доказательством пригодности разрабо танной ГНСМ для ее использования при составлении производственного плана проведе ния выездных проверок. Сравнение ГНСМ с независимой моделью непараметрического сглаживания (таблица 2), давшее совпадение 83%, является подтверждением их взаимной адекватности.

СПИСОК ПУБЛИКАЦИЙ В рецензируемых журналах из списка ВАК 1. Повышение устойчивости нейросетевых моделей налогового контроля с использовани ем общесистемных закономерностей. / С.А. Горбатков, Д.В. Полупанов, А.М. Солнцев и др. // Обозрение прикладной и промышленной математики. 2004. Т.11. Вып. 4. С. 786–787.

2. Совершенствование нейросетевой математической модели налогового контроля на ос нове общесистемных закономерностей кибернетики. / С.А. Горбатков, Д.В. Полупанов // Ней рокомпьютеры: разработка, применение. 2005. № 3. С. 43–52.

3. Построение нейросетевых математических моделей в технических и экономических системах в условиях искажения входных данных / С.А. Горбатков, Д.В. Полупанов, Г.А. Бес хлебнова и др. // Обозрение прикладной и промышленной математики. 2005. Т.12. Вып. 2. С.

337–338.

4. Устойчивость нейросетевого отображения на обучающем множестве в смысле ошибки обобщения. / С.А. Горбатков, Д.В. Полупанов // Нейрокомпьютеры: разработка, применение.

2005. № 12. С. 25–34.

5. Совершенствование нейросетевой математической модели налогового контроля на ос нове оптимизационной процедуры очистки кластера по векторному критерию точности и устой чивости / С.А. Горбатков, Д.В. Полупанов // Нейрокомпьютеры: разработка, применение. 2006.

№ 3. С. 69–74.

В других изданиях 6. Совершенствование региональной системы налогового контроля и управления на осно ве нейросетевых информационных технологий. / Н.Д. Бублик, С.А. Горбатков, Д.В. Полупанов и др. Уфа: Башкирский территориальный институт профессиональных бухгалтеров, 2000. 64 с.

7. Математическое моделирование финансовых показателей сложных экономических объ ектов на основе нейросетевых технологий / Д.В. Полупанов // Радиоэлектроника, электротехни ка и энергетика. Шестая международная научно-техническая конференция студентов и аспиран тов. М.: Издательство МЭИ, 2000. С. 318–319.

8. Математическая нейросетевая модель оценки финансовых показателей объектов нало гообложения и разработка плана документальных налоговых проверок на ее основе / Д.В. По лупанов // Республиканская конференция студентов и аспирантов по математике. Уфа, БашГУ, 2000. С. 196–197.

9. Теорема существования элемента наилучшего приближения в задаче обучения нейрон ных сетей / Д.В. Полупанов // Аспирант и соискатель. 2001. № 5(6). С. 177–179.

10. Инструментарий нейросетевого моделирования. / С.А. Горбатков, Д.В. Полупанов // Г.И.Букаев, Н.Д.Бублик, С.А. Горбатков, Р.Ф. Саттаров Модернизация региональной системы налогового контроля и управления на основе нейросетевых информационных технологий. М.:

Наука, 2001. С. 187– 11. Постановка задачи моделирования выручки. Выбор входных факторов и выходного по казателя. Образование кластеров. / С.А. Горбатков, Д.В. Полупанов, Б.Г. Колбин // Г.И.Букаев, Н.Д.Бублик, С.А. Горбатков, Р.Ф. Саттаров Модернизация региональной системы налогового контроля и управления на основе нейросетевых информационных технологий. М.:

Наука, 2001. С. 222– 225.

12. Теорема устойчивости нейросетевого отображения по возмущению начальных данных на тестовом множестве / Д.В. Полупанов // Нейрокомпьютеры и их применение НКП – 2002:

труды VIII Всероссийской конференции с международным участием / Под ред. проф. А.И. Га лушкина. М.: Ин-т проблем управления им. В.А. Трапезникова РАН, 2002. С. 1019–1022.

13. Апробация концепции вложенных математических моделей. / С.А. Горбатков, Д.В. По лупанов, Р.Р. Сиразев // Н.Д.Бублик, И.И. Голичев, С.А. Горбатков, А.В. Смирнов. Теоретиче ские основы разработки технологии налогового контроля и управления. Уфа: РИО БашГУ, 2004.

С. 190–193.

14. Верификация нейросетевой модели на основе натурных экспериментов. / С.А. Горбат ков, Н.Т.Габдрахманова, Д.В. Полупанов // Н.Д.Бублик, И.И. Голичев, С.А. Горбатков, А.В.

Смирнов. Теоретические основы разработки технологии налогового контроля и управления.

Уфа: РИО БашГУ, 2004. С. 209–212.

15. Реализация принципа комбинации различных методов для разработки модели оптими зации плана выездных проверок в СНКУ / С.А. Горбатков, Д.В. Полупанов // Н.Д.Бублик, И.И.

Голичев, С.А. Горбатков, А.В. Смирнов. Теоретические основы разработки технологии налого вого контроля и управления. Уфа: РИО БашГУ, 2004. С. 213–219.

16. Построение оптимального плана отбора для выездных налоговых проверок предприятий сферы гостиничного бизнеса с помощью вероятностного критерия. / Д.В. Полупанов // Н.Д.Бублик, И.И. Голичев, С.А. Горбатков, А.В Смирнов. Теоретические основы разработки технологии налогового контроля и управления. Уфа: РИО БашГУ, 2004. С. 315–318.

17. К вопросу обеспечения адекватности гибридной нейросетевой модели налогового кон троля / Д.В. Полупанов // Информационные технологии моделирования и управления. 2005.

№6. С. 812–820.

18. Об одном методе предобработки сильнозашумленных данных при построении нейросе тевой модели налогового контроля / Д.В. Полупанов // Информационные технологии модели рования и управления. 2005. №6. С. 821–827.

19. Алгоритм синтеза оптимального плана отбора налогоплательщиков для проведения вы ездных проверок на основе гибридной нейросетевой математической модели / С.А. Горбатков, Д.В. Полупанов, А.М. Солнцев // Сборник научных трудов по материалам научно-практической конференции «Современные направления теоретических и прикладных исследований». Т.5.

Экономика. Одесса: Черноморье, 2006. С. 21– 26.

20. Компьютерная технология тематических выездных налоговых проверок на основе ней росетевого моделирования / С.А. Горбатков, Д.В. Полупанов, А.М. Солнцев // Сборник науч ных трудов по материалам научно-практической конференции «Современные направления тео ретических и прикладных исследований». Т.5.Экономика. Одесса: Черноморье, 2006. С. 26– 30.

21. Процедура оптимальной кластеризации исходных данных при построении нейросетевой модели налогового контроля / Д.В. Полупанов // Проблемы и перспективы российской эконо мики: сборник статей V Всероссийской научно-практической конференции. Пенза, НОУ «При волжский Дом знаний», 2006. С. 141–144.

22. Рабочий алгоритм ранжирования экономических объектов с сильнозашумленными дан ными на основе гибридной нейросетевой математической модели. / С.А. Горбатков Д.В. Полу панов // Свидетельство об отраслевой регистрации разработки в отраслевом фонде алгоритмов и программ № 6398 от 16.06.2006. Номер государственной регистрации в Национальном инфор мационном фонде неопубликованных документов: 50200600974 от 19.06.2006.

Диссертант Полупанов Д.В.

Авторефераты диссертаций >> Авторефераты по Иформатике

<< ГЛАВНАЯ | КОНТАКТЫ

АВТОРЕФЕРАТЫ КАНДИДАТСКИХ, ДОКТОРСКИХ ДИССЕРТАЦИЙ

Математические модели ранжирования объектов налогового контроля