Память павших

Война - дело молодых

С развитием технологий люди вынашивают идеи по использованию компьютерных мощностей для замены человеческого труда. И пока наши коллеги лишают работы искусствоведов и поэтов, историкам, похоже, бояться нечего. В руки нашей команды попали таблицы с уже размеченными данными миллионов документов. Казалось бы - бери и анализируй, но не все так просто. О том, с какими трудностями мы столкнулись, а также какие данные все-таки у нас получились, расскажет этот сайт.

Пусть пожар повсюду полыхает,

Кто умеет пламенно любить,

Тот придет, я это точно знаю,

Чтоб оковы рабские разбить.

Меркулов А.А.

Цели и источники информации

После войны историки провели огромное количество исследований в попытках изучить судьбу плененных в ходе ВОв солдат. Мы поставили себе цель применить подходы Digital Humanities при обработке миллионов документов, собранных историками

Изначальные данные взяты с сайта ОБД Мемориал с документами, относящимися к призыву войск, их перемещениями, госпитализациями, потерями. Мы решили использовать информацию о плененных солдатах, их судьбах в лагерях Вермахта. В собранной организаторами таблице 1 210 215 записей о бойцах, попавших в плен в годы войны. Препятствием стало то, что данные в них записаны в разных форматах, где-то даже с опечатками, часто половина сведений вообще отсутствовала. База данных на нашем сервере.

В ходе исследования мы нашли распределение числа пленных по годам, изучили смертность по концлагерям, выявили зависимость смертности от возраста, проанализировали время жизни пленных в лагере.

Почему именно эти данные?

Каждый, кто интересовался войной, знает, что оценки историков о подобных данных очень сильно разнятся. Это связано с недостатком документов, их путанностью - одни утеряны, другие наоборот повторяются. Кроме того, при недостатке информации исследователи делали свои допущения, использовали разные подходы. Мы решили проанализировать имеющиеся документы и попробовать сделать прогнозы по полной картине и сравнить их с официальными данными.

Количество пленных по годам ВОВ

Начнем с самого банального: раскладки количества пленных по годам ВОВ. Это было просто - откинули записи, где графа даты не указана, нашли подстроку из 4 чисел, это и есть наш год. По полученным данным построили график:

Очевидная гипотеза подтвердилась - больше всего пленных было во время беспорядочного отступления Красной Армии, когда сотни тысяч солдат оказывались в "котлах" и были вынуждены сдаться. Со стороны немецких исследователей график их потерь по годам должен выглядеть в точности наоборот.

Следующая гипотеза - больше всего пленных было молодого и среднего возраста, стариков несравнимо меньше. В то же время сам плен тяжелее всего выдержать именно старикам. Гипотеза есть - надо проверить. Точно так же были отброшены записи без даты рождения и смерти. Если человек выжил, за точку отсчета бралась дата пленения. Если в графе дня и месяца был пропуск - заменяли на первое января.

Зависимость погибших в плену от возраста

Исследовав данные из базы, мы получили следующую зависимость:

Попробуем посчитать коэффициент отношения количества смертей к количеству взятых в плен:

Как видим, молодые ребята выживали чаще. В этом плане, война - действительно дело молодых...

Что такое концлагерь?

Концентрационный лагерь — специально оборудованный центр массового принудительного заключения и содержания следующих категорий граждан различных стран:

  • военнопленных и интернированных во время войны
  • политических заключённых при некоторых диктаторских режимах, во внесудебном порядке
  • лиц, лишённых свободы по национальному, религиозному, расовому, идеологическому или иному признаку
  • заложников, обычно во время гражданских войн или оккупации
  • предназначенных к ликвидации в лагерях смерти в нацистской Германии во время Второй Мировой войны

Первоначально термин использовался в основном в отношении лагерей для военнопленных и интернированных лиц, но в настоящее время он, как правило, ассоциируется в первую очередь с концентрационными лагерями Третьего рейха и потому стал пониматься как обозначение места массового заключения с крайне жестокими условиями содержания.

Анализируемые концлагеря

Часто вместо лагеря либо был указан только город, либо указаны сразу несколько лагерей, так что пришлось тщательно отфильтровать полученные результаты. Мы отобрали для исследования 14 концлагерей, чаще всего встречающихся в документах. Только 3 из них изначально были лагерями Третьего Рейха: Дахау, Заксенхаузен и Хаммельбург (офлаг XIII D). Остальные же были созданы на месте захваченных городов. Интересно заметить, что самые известные обывателю лагеря в данную выборку не попали. Бухенвальд, например, встречался в базе меньше 100 раз. Но мы отметили страшный факт - все упомянутые там люди были там же и похоронены.

Данные

Исследовав предложенную базу данных, мы сравнили число выживших и погибших солдат в каждом из 14 упомянутых концлагерей. Получили следующую зависимость:

Во всех лагерях (кроме Нойхаммера) количество выживших больше, причем во многих лагерях получились совершенно несравнимые числа. Это наводит на мысль о недостаточности данных для полноценного исследования. К примеру, как показал краткий поиск в интернете, в самых страшных лагерях пленных зачастую отправляли на смерть сразу по прибытии, даже не регистрируя их. Реальные данные в этом случае нам не получить уже никогда.

Заксенхаузен

В этом лагере по данным базы вообще нет ни одного умершего, однако это далеко не так. По данным Википедии: на территории лагеря различным образом погибло свыше 100000 человек. Такую неточность можно объяснить только недостатком информации для анализа. Но все равно стоит упомянуть, что на территории этого концлагеря находилось “уникальное” сооружение: станция «Z» — здание за территорией лагеря, в котором производились массовые убийства.

На картинке оно отмечено как барак “Ц”. В нём находились специальное устройство для произведения выстрелов в затылок и крематорий с четырьмя печами, а в 1943 году была пристроена газовая камера. Иногда транспортные средства с людьми отправлялись напрямую в это здание, минуя регистрацию в лагере, в связи с чем невозможно установить точное число уничтоженных здесь людей. Поэтому, даже если в базе и есть такие люди, вполне возможно, доподлинно неизвестен факт их гибели именно в этом концлагере.

Нойхаммер

В этом лагере, в единственном, число выживших меньше числа умерших. Попробуем обосновать такую статистику.

Что касается полезной для анализа информации, то удалось найти следующее: выявление и отбор «нежелательных русских» проводился полицейским управлением г. Бреслау, и «неблагонадёжные» переводились из Нойхаммера в концлагеря Гросс-Розен и Аушвиц (Освенцим). Лагерь был построен в сентябре 1939 года. Вначале в нём размещались польские военнопленные. В мае 1940 года к ним присоединились французские военнопленные. В 1941 году они были переведены в другие лагеря. Из полученной информации не является очевидной такая разница в показателях, поэтому спишем это просто на то, что большинство из базы данных действительно умерли в этом лагере.

Очевидно, одних только данных базы не хватает для реалистичных оценок. Но что, если объединить наши данные с полученными другими исследователями. Мы определили для каждого концлагеря отношение числа умерших к числу выживших:

Мы хотим сделать несколько примерных прогнозов. На примере двух концлагерей мы хотим показать, что теоретически возможно спрогнозировать реальные цифры смертности в концлагерях, опираясь на данные Википедии и на соотношение числа умерших к числу выживших по нашему анализу базы данных.

Офлаг XIII D

По данным Википедии, в лагере было зарегистрировано более 18000 советских офицеров. Отношение числа смертей к числу выживших здесь 0,23, из чего можно сделать вывод, что из 18000 зарегистрированных там офицеров погибло 4140, остальные выжили.

Лагерь 5 Тирасполь

В городе был развёрнут лагерь для советских военнопленных. За время оккупации в городе погибло более четырёх тысяч человек. Исходя из предложенных данных, коэффициент отношения умерших к выжившим в лагере 5 Тирасполь – 0,019 (или 1,9 процента). Если сопоставить данные, в лагере выжило более 200 тысяч человек, что выглядит странно - маловероятно, что в лагере Румынии в принципе находилось более 200 тысяч военнопленных.

Однако, несмотря на относительную неточность, подобные прогнозы имеют место быть. При большем времени на анализ данных можно продолжить исследования и выявить более осязаемые закономерности.

Теперь посмотрим на то, как пленные переживали время в лагере. Нас интересует статистика по количеству выживших в зависимости от времени пребывания в плену. Можно выдвинуть гипотезу, что чем дольше срок, тем меньше выживших. Проверим.

Время жизни в плену

Данные разделены на 6 категорий: до 30 дней, до 90 дней, до года, до 2 лет, до 3 и более 3 лет.

Наблюдается сходство между зависимостью, полученной в результате обработки данных и нормальным распределением Гаусса.

Заключение

Поступившие данные были достаточно разнородны и сложны в обработке, но в конце концов были получены некоторые реалистичные выводы.