Компьютерные технологии в науке и образовании    

Кластер "Лусидор"

Общее описание

Кластер "Лусидор" (Lucidor) был подарен Петрозаводскому государственному университету Стокгольмским университетом в 2013 г. Кластер состоит из 36 идентичных узлов (нодов), размещенных в 6 стойках, по 6 узлов в стойке. Архитектура процессоров кластера – IA-64. Каждый узел кластера – это сервер HP Integrity rx5670-4 Server на основе 4 процессоров Intel Itanium2 (Madison) 1.3 ГГц, содержащий 32 Гбайт ОЗУ PC2100 ECC DDR, два жёстких диска Ultra320 SCSI 73 Гбайт, два сетевых интерфейса: Broadcom NetXtreme BCM5701 Gigabit Ethernet и Myricom M3F-PCIXD-2 (2 канала по 2 Гбит/с). Операционная система узла – Debian 7 "Wheezy" на основе ядра Linux 3.2.78.

В настоящий момент для студентов доступна одна стойка (6 узлов). Узлы в этой стойке объединены при помощи выделенного ethernet-коммутатора D-Link xStack DES-3526. Оптические коммуникационные каналы объединены через коммутатор Myrinet M3-SW16-8F.

Узлы кластера находятся в выделенной сети, которая подключена ко второму интерфейсу сервера доступа saturn.phys.petrsu.ru. Для работы с кластером необходимо подключится по SSH к серверу доступа со своим логином-паролем от КОМПОТ.

Узлы кластера и saturn имеют общую сетевую папку /srv/nfs (сетевая файловая система NFS). Через эту папку могут передаваться данные между узлами.

Архитектура сервера доступа (saturn) такая же, как на узлах кластера – IA-64, поэтому скомпилированные на saturn программы могут быть запущены на узлах кластера.

На кластере установлена система распределения ресурсов TORQUE. Консоль TORQUE размещена на saturn. При запуске заданий сетевая файловая система AFS будет недоступна, поэтому для заданий в качестве базового каталога следует устанавливать папку из /srv/nfs.

Пример файла задания (myscript.sh):
#!/bin/sh
#PBS -l nodes=2:ppn=4
#PBS -d /srv/nfs/pupkin
#PBS -m abe
#PBS -M pupkin@foo.com

time -p mpirun /srv/nfs/pupkin/try_mpi 18014398241046527

Заказываем 2 узла по 4 процессора.
ВАЖНО! Базовая папка - /srv/nfs/pupkin
Заказываем почту при старте (b), окончании (e) и отмене (a) задания.
Почтовый адрес, куда пойдёт почта.

Собственно, сама команда.

Для запуска задания – команда qsub.

Для просмотра списка своих активных заданий – команда qstat.

Для удаления (отмены) незавершённого задания – команда qdel.

Для принудительного запуска задания, находящегося в очереди в состоянии ожидания, – команда qrun.

Для мониторинга занятости узлов кластера можно использовать команду pbstop (пробел – обновление, q – выход).

По завершении задания его стандартный вывод (stdout) и стандартный вывод ошибок (stderr) сохраняются в файлах в базовом каталоге задания. Имена файлов соответствуют имени задания, расширения – o/e + номер задания.

 

Расписание

В помещении, где находится кластер, имеются проблемы с охлаждением, поэтому кластер не работает постоянно, а включается по запросу. Вне зарезервированного времени кластер может быть выключен (не доступен).

Чтобы заказать время для работы с кластером, воспользуйтесь сервисом http://saturn.phys.petrsu.ru/lucidor/.