Управление потоком “больших объемов данных” из космоса

Ежедневно для НАСА и десятков миссий, предпринятых агентством, поступают огромные потоки данных, напоминая оживленные бурлящие реки. Космический аппарат контролирует всё, от планет нашей Солнечной системы до удаленных галактик, передавая на Землю регистрируемые изображения и информацию. Все эти потоки информации, передаваемые в виде цифровых записей, должны где-то храниться, приводиться в упорядоченные системы и обрабатываться, чтобы инженеры, ученые и люди в любом уголке земного шара, работающие с космическим аппаратом, могли использовать эти данные для лучшего понимания своей родной планеты и Вселенной далеко за ее пределами. Специалисты из Лаборатории реактивного движения, НАСА, в Пасадене, штат Калифорния, проектировщики миссии и инженеры-программисты, предлагают новую стратегию управления постоянно растущим потоком таких объемных и сложных массивов данных, которые среди специалистов информационных технологий называются "большими объемами данных". Насколько велики эти большие объемы данных? В рамках выполнения миссий НАСА ежечасно скапливаются сотни терабайт информации. Всего лишь один терабайт соответствует объему информации, распечатанной на таком количестве бумаги, которое изготавливается из 50 000 деревьев. "Ученые используют большие объемы данных для самых разных целей – от прогнозов погоды на Земле до контроля ледников на Марсе и поисков удаленных галактик",– говорит Эрик де Йонг ( Eric De Jong) из JPL , руководитель программы НАСА ”Визуализация Солнечной системы”, в которой научные данные миссии преобразуются в продукты визуализации, которые могут использовать исследователи. "Мы являемся хранителями данных, а пользователями являются астрономы и ученые, которым нужны фотоснимки, монтаж фотоснимков, карты и кинофильмы для поиска моделей и проверки теорий". Построение “воздушных” замков данных Де Йонг поясняет, что имеется три аспекта (критерия), по которым объединяются в блоки поисково-информационных систем контролируемые данные, получаемые в ходе выполнения космических миссий: хранение, обработка и доступ. Первая задача, которая связана с хранением или архивацией данных, является, естественно, более сложной для больших объемов данных. Антенная решетка, суммарная эффективная площадь антенн которой составляет один квадратный километр, Square Kilometer Array (SKA), плановая структура, состоящая из тысяч телескопов, которая размещается в Южной Африке и Австралии, демонстрирует реализацию этой задачи. Управляемая организацией SKA, базирующейся в Англии, огромная антенная решетка, начало строительства которой запланировано на 2016 год, будет сканировать небо, улавливая радиоволны, испускаемые самыми первыми известными галактиками. Лаборатория реактивного движения (JPL) привлечена к процессу архивирования потоков изображений, принимаемых антенной решеткой: предполагаемый ежедневный прием –700 терабайт данных. Это соответствует полному потоку данных, который пропускается через сеть Интернет в течение каждых двух дней. Вместо разработки большего количества аппаратуры вычислительных систем, инженеры заняты разработкой креативных программных средств, обеспечивающих более надежное хранение информации, таких, например, как процедуры "облачных вычислений" ("cloud computing") и автоматизированных программ извлечения данных. "Нам не нужно изобретать велосипед",– говорит Крис Мэттмэнн (Chris Mattmann), научный руководитель программы “большие объемы данных”, созданной по инициативе JPL. "Мы можем модифицировать компьютерные программы с открытым исходным кодом с целью создания более высокоскоростных ( с повышенным быстродействием) и дешевых решений". Программное обеспечение коллективного пользования, доступное для всех, на которое опираются программисты, называется открытое программное обеспечение или программное обеспечение с открытым кодом. JPL постепенно переходит на программное обеспечение с открытым кодом, получая при этом более совершенные инструменты обработки данных в рамках выполнения космических миссий. Инструменты JPL затем возвращаются в сеть Интернет для всеобщего доступа, чтобы их можно было использовать в других приложениях. "Это взаимовыгодное решение для всех",– говорит Мэттмэнн. В живом цвете Архивация данных не является единственной сложной задачей при обработке больших объемов данных. Де Йонг и его команда разрабатывают новые способы визуализации информации. Каждое изображение, поступающее с одной из камер марсианского исследовательского зонда Mars Reconnaissance Orbiter, НАСА, например, содержит 120 мегапикселей. Его команда создает фильмы из наборов данных, подобных этим, наряду с компьютерной графикой и анимацией, что дает возможность ученым и всем людям существенно приблизиться к Красной планете. "Данные не просто существенно возрастают в объеме, они становятся более сложными", - утверждает Де Йонг. "Мы постоянно работаем над проблемами автоматизации процесса создания продуктов визуализации, чтобы ученые и инженеры могли легко пользоваться этими данными." Подготовка данных для отбора (извлечения) Другой большой проблемой в области работы с большими объемами данных, является облегчение более легкого и быстрого способа извлечения нужных данных из архивов данных. "Допустим, у вас есть гигантский книжный шкаф, заполненный книгами, вместе с тем, вам также необходимо знать, как отыскать книгу, которая вам нужна", - объясняет Стив Грум (Steve Groom), руководитель Центра обработки и анализа инфракрасных данных, НАСА, при Калифорнийском технологическом институте, в Пасадене. Центр формирует архивы данных для общественного пользования , которые были получены в ходе множества астрономических миссий НАСА, в том числе с использованием космического телескопа “Спитцер”, телескопа , ведущего съемку в инфракрасном диапазоне, Wide-field Infrared Survey Explorer (WISE), и частично в ходе миссии Планка, организованной Европейским космическим агентством, выполнение которой возложено на США. Иногда пользователи желают получить доступ сразу ко всем данным для отыскания общих моделей, что является преимуществом архивов больших объемов данных. "Астрономы также могут просматривать все “книги” в нашей библиотеке одновременно, иногда это невозможно выполнить на их собственных компьютерах", - говорит Грум. "Ни один человек не сможет разобраться с такими огромными массивами данных", - утверждает Андреа Доннеллан (Andrea Donnellan) из JPL, которая отвечает за такую же масштабную задачу в рамках проекта, финансируемого НАСА, под названием QuakeSim, в котором объединены огромные наборы данных – космических и полученных в земных условиях – с целью изучения процессов, происходящих во время землетрясений. Снимки и графики, полученные в ходе реализации проекта QuakeSim, помогают исследователям разобраться в процессах , протекающих во время землетрясений, и выработать долгосрочный планово-предупредительный комплекс мер. Наборы данных включают данные системы спутниковой связи GPS для множества мест обнаружения в Калифорнии, где произведены тысячи измерений и получены миллионы базовых координат. Доннеллан и её команда разрабатывают программные средства, помогающие пользователям “перелопачивать” огромные потоки данных. К сожалению, поток больших объемов данных будет продолжать увеличиваться, и НАСА разработает новые стратегии для управления потоками информации. Когда появятся новые инструменты, у нас появится возможность постичь тайны образования нашей Вселенной и всего мира. http://www.astrogorizont.com/content/read-dannye_kosmosa