Логика мышления

Страница: 1 ... 4041424344454647484950 ... 95
  • чтобы с их помощью можно было достаточно полно и адекватно описывать все происходящее;
  • чтобы такое описание вычленяло основные закономерности, свойственные происходящим событиям.

Первое позволяет, запоминая, накопить информацию, не упустив при этом детали, которые впоследствии могут оказаться важными закономерностями. Второе обеспечивает наглядность тех факторов в описании, от которых может зависеть принятие решений.

Хорошо известен подход, основанный на оптимальном сжатии данных. Так, например, используя факторный анализ, мы можем получить главные компоненты, на долю которых приходится основная доля изменчивости. Оставив значения нескольких первых компонент и отбросив остальное, мы сможем значительно уменьшить длину описания. Кроме того, значения факторов расскажут нам о выраженности в описываемом событии тех явлений, которым эти факторы соответствуют. Но такое сжатие имеет и обратную сторону. Для реальных событий первые главные факторы объясняют в совокупности обычно лишь небольшой процент общей дисперсии. Каждый их малозначимых факторов хотя и уступает во много раз по величине первым факторам, но именно сумма этих малозначимых факторов отвечает за основную информацию.

Например, если взять несколько тысяч кинофильмов и получить их оценки, проставленные сотнями тысяч пользователей, то с такими данными можно провести факторный анализ. Наиболее значимыми окажутся первые четыре – пять факторов. Они будут соответствовать основным жанровым направлениям кинематографа: боевик, комедия, мелодрама, детектив, фантастика. Для российских пользователей кроме того выделится сильный фактор, описывающий наше старое советское кино. Выделенные факторы имеют простую интерпретацию. Если описать какой-либо фильм в пространстве этих факторов, то это описание будет состоять из коэффициентов, говорящих, насколько тот или иной фактор выражен в данном фильме. Каждый пользователь имеет определенные жанровые предпочтения, которые влияют на его оценку. Факторный анализ позволяет вычленить основные направления этого влияния и превратить их в факторы. Но оказывается, что первые значимые факторы объясняют всего около 25% дисперсии оценок. Все остальное приходится на тысячи остальных мелких факторов. То есть если мы попытаемся сжать описание фильма до его портрета в главных факторах, мы потеряем основной объем информации.

Кроме того, нельзя говорить о неважности факторов с малой объясняющей способностью. Так, если взять несколько фильмов одного режиссера, то их оценки, скорее всего, окажутся тесно коррелированы между собой. Соответствующий фактор будет объяснять существенный процент дисперсии оценок этих фильмов, но только этих. Это значит, что поскольку этот фактор не проявляется в других фильмах, то его объясняющий процент во всем объеме данных будет ничтожен. Но именно для данных фильмов он будет значительно важнее, чем первые главные компоненты. И так практически для всех малых факторов.

— 45 —
Страница: 1 ... 4041424344454647484950 ... 95