Scheduling der Jobs
| Author | Message |
|---|---|
|
Written on: 16. 09. 2011 [08:57]
|
|
|
nhaeruth
Julian Rüth
Topic creator
registered since: 25.08.2011
Posts: 16
|
Hallo, gibt es eine Dokumentation darüber, wie der nächste Job aus der Queue ausgewählt wird? Ist das im Prinzip first come first served (im Falle gleicher Ressourcenanforderungen)?. Gibt es eine Form von Karma, das User die üblicherweise wenige Jobs absetzen bevorzugt? Danke für die Antworten. |
|
Written on: 16. 09. 2011 [09:58]
|
|
|
cochrane
Paul Cochrane
registered since: 14.09.2010
Posts: 145
|
Hallo Julian, auf der Webseite gibt es zur Zeit keine Doku darüber. Ab und zu erklären wir das den Nutzern, die darüber nachfragen. Ich versuche es hier zu erklären und dann schreibe ich etwas auf unserer FAQ-Seite (http://www.rrzn.uni-hannover.de/cluster-faq.html) darüber. Falls das alles dich interessiert, kannst du gerne die Doku für Torque (der Resource-Manager) http://www.adaptivecomputing.com/download/resources/docs/torque/pdf/TORQUE_Administrator%27s_Guide.pdf bzw. Maui (der Scheduler) http://www.adaptivecomputing.com/download/resources/docs/maui/pdf/mauiadmin.pdf lesen. Das Prinzip ist in der ersten Ordnung "first come, first served" im Falle gleicher Ressourcenanforderungen. Aber dann kommt eine höhere Priorität für Jobs, die länger in der Queue gewesen sind. Eine Priorität, die proportional der "queue time" wird jedem Job zugeordnet. Der Scheduler (Maui) nimmt den nächsten wartenden Job aus der Queue und gibt ihm eine feste Reservierung, also erteilt Ressourcen, die an einem zukünftigen Zeitpunkt frei werden, diesem Job zu damit er an dem zukunftigen Zeitpunkt starten wird. Danach benutzt der Scheduler ein Verfahren namens "backfill", was alle Jobs der Reihe nach durchgeht und entscheidet ob eine passende Lücke bereits auf dem System gibt (vorausgesetzt, dass die Anzahl bereits laufenden Jobs nicht den Wert von 64 überschritten ist) und starten den Job. Jobs mit höher Priorität werden in diesem Verfahren natürlich vorgezogen. Backfill ist der Grund, dass obwohl viele Jobs in der Queue stehen und warten, dass ein kleiner Job am Ende der Queue schon vorher starten kann. Es gibt tatsächlich einen Schalter im Scheduler, der Nutzer mit weniger Verbrauch bevorzugen kann, aber den wollten wir nicht benutzen, da das Batchsystem bereits ein sehr komplexes System ist. Wir versuchen durch eine begrenzte Anzahl gleichzeitig laufende Jobs (zur Zeit auf 64 gesetzt), dass sowohl die Großverbraucher als auch die Kleinverbraucher möglichst fair behandelt werden. Außerdem steht das Clustersystem für alle Mitarbeiter der Uni kostenlos zur Verfügung und so sind alle Jobs quasi gleichberechtigt. Falls ein Institut mehr Rechenleistung selber besorgen möchte, kann man auch unser "Forschungscluster Housing" Angebot benutzen. Die Idee hier ist, dass das RRZN Strom, Klima, Platz, Administration und Anbindung an das Batchsystem bzw. Filesysteme bereitstellt und das Institut Rechner kauft, die unsere Anforderungen passen. Wir stellen alles auf und das Institut bekommt priorisierten Zugriff zu dieser Rechenleistung. Hoffentlich hat das deine Frage beantwortet! Viele Grüße, Paul |
|
Written on: 16. 09. 2011 [10:17]
|
|
|
cochrane
Paul Cochrane
registered since: 14.09.2010
Posts: 145
|
Weiterhin kann man mit 'showq' auf Orac oder Avon sehen, weleche Jobs zunächst anlaufen sollen. Man kann auch mit 'showbf' sehen, was für Ressourcen unter Backfill verwendet werden können. Zum Beispiel: zzzzcoch@avon:~$ showbf backfill window (user: 'zzzzcoch' group: 'zzzz' partition: ALL) Fri Sep 16 10:15:11 183 procs available for 1:53:31 179 procs available for 7:45:23 175 procs available for 9:01:23 99 procs available for 14:24:33 95 procs available for 14:38:52 92 procs available for 15:38:40 90 procs available for 21:23:14 87 procs available for 1:03:40:59 84 procs available for 2:04:57:44 74 procs available for 2:16:24:51 72 procs available for 2:17:08:23 70 procs available for 2:18:31:33 69 procs available for 2:18:34:58 67 procs available for 4:15:32:00 54 procs available for 5:09:06:47 52 procs available for 5:11:51:58 51 procs available for 5:11:52:00 47 procs available for 6:08:46:04 45 procs available for 6:09:35:21 39 procs available for 7:20:13:20 36 procs available for 8:07:48:12 34 procs available for 8:07:49:57 31 procs available with no timelimit Also für einen job, der 15 Stunden Wallclockzeit braucht, stehen 92 Prozessoren zur Verfügung. Viele Grüße, Paul |
|
Written on: 16. 09. 2011 [10:50]
|
|
|
nhaeruth
Julian Rüth
Topic creator
registered since: 25.08.2011
Posts: 16
|
Vielen Dank, das beantwortet meine Fragen. |

