Der MiniMax Algorithmus

Der Minimax-Algorithmus dient ganz allgemein der Entscheidungsfindung. In Zwei-Personen-Nullsummenspielen, wie Reversi, hilft der Algorithmus herauszufinden, welches der optimale nächste Zug ist gegeben das beide Spieler optimal spielen. Optimal bedeutet dabei, dass beide gegeben der gleichen Strategie ihren Gewinn maximieren. Als "Java Pseudocode" sieht der Algorithmus beispielsweise so aus

int max(Position pos, int depth) {
    if(depth == 0)
        return eval(pos, me);
    moves = pos.generateMoves();
    int maxWert = -INFINITY;
    foreach(m in moves) {
        pos.makeMove(m);
        int value = min(pos, depth - 1);
        pos.undoMove(m);
        if(value > maxWert) {
            maxWert = value;
        }
    }
    return maxWert;
}

int min(Position pos, int depth) {
    if(depth == 0)
        return eval(pos, foe);
    moves = pos.generateMoves();
    int minWert = INFINITY;
    foreach(m in moves) {
        pos.makeMove(m);
        int value = max(pos, depth - 1);
        pos.undoMove(m);
        if(value < minWert) {
            minWert = value;
        }
    }
    return minWert;
}

Nun sind dies zwei Funktionen, welche quasi dasgleiche machen. Da man als Programmierer gerne faul ist und zudem noch die Anzahl Fehler proportional zu den Anzahl Zeilen Code ist, möchte man dies natürlich reduzieren. Deshalb hier ohne Beweis auf Gleichheit die Alternative Variante in nur einer Funktion, NegaMax genannt:

int negaMax(Position pos, int depth, int player) {
    if(depth == 0)
        return eval(pos);
    moves = pos.generateMoves();
    int maxWert = -INFINITY;
    foreach(m in moves) {
        pos.makeMove(m);
        int value = -negaMax(pos, depth - 1, otherPlayer(player));
        pos.undoMove(m);
        if(value > maxWert) {
            value = maxWert;
        }
    }
    return maxWert;
}

Die Grundidee dabei ist, dass jeder Spieler seinen Gewinn maximieren will. Deshalb multipliziert man den Wert des anderen Spielers mit -1; daher auch der Name "NegaMax".

Alpha Beta Suche

Nun ist der Minimax Algorithmus nicht sehr effizient, da er auch Knoten auswertet die den finalen Wert an der Wurzel gar nicht mehr beeinflussen können. Deshalb führt man obere und untere Schranken des momentan besten Wertes ein um frühzeitig irrelevante Knoten aus der Suche ausschliessen zu können. Die obenstehende NegaMax-Funktion lässt sich wie folgt ergänzen:

int negaMax(Position pos, int alpha, int beta, int depth, int player) {
    if(depth == 0)
        return eval(pos);
    moves = pos.generateMoves();
    
    foreach(m in moves) {
        pos.makeMove(m);
        int value = -negaMax(pos, -beta, -alpha, depth - 1, otherPlayer(player));
        pos.undoMove(m);
        if(value >= beta)
            return beta;
        else if(value > alpha)
            alpha = value;
    }
    return alpha;
}

Alpha-Beta Optimierungen

Die Alpha-Beta-Suche findet den gleichen Wert wie der MiniMax-Algorithmus und evaluiert dabei höchstens soviele Knoten wie selbiger. Unser Ziel sollte es nun sein, möglichst wenige Knoten evaluieren zu müssen. Da der Wert sowieso derselbe ist, bringt der Mehraufwand auch nichts.
Bei der Betrachtung des Algorithmuses fällt auf, dass idealerweise der beste Zug zuerst evaluiert wird, weil dann die Anzahl Schnitte maximal wird. Wird beispielsweise das Übungsbeispiel auf der Vorlesungshomepage von rechts nach links durchgerechnet, müssen mehr Knoten evaluiert werden. Dies bedeutet, dass sich eine geschickte Zugvorsortierung lohnen kann. Hierfür kann zum Beispiel die Auswertung des Spielbaums zur Tiefe (d - 1) herbeigezogen werden. In diesem Zusammenhang kann über eine Implementierung einer "Transposition Table" nachgedacht werden. Einerseits werden so wichtige Werte einer vorherigen Suche gespeichert andererseits müssen Positionen der aktuellen Suche nicht neu evaluiert werden. Mit so einer Tabelle lässt sich der Alpha-Beta-Algorithmus mit Erinnerungsvermögen implementieren (hier gefunden).

int negaMax(Position pos, int alpha, int beta, int depth, int player) {
    if(depth == 0)
        return eval(pos);

    e = table.lookUp(pos);
    if(e is valid) {
        if(e.lowerBound >= beta)
            return e.lowerBound;
        if(e.upperBound <= alpha)
            return e.upperBound;
        alpha = Math.max(alpha, e.lowerBound);
        beta = Math.min(beta, e.upperBound);
    }

    moves = pos.generateMoves();
    sortMovesByHeuristic(moves, e);
    Move best = null;
    int bestVal = -INFINITY, a = alpha;
    foreach(m in moves) {
        pos.makeMove(m);
        int value = -negaMax(pos, -beta, -a, depth - 1, otherPlayer(player));
        pos.undoMove(m);
        if(value > bestVal) {
            best = m;
            bestVal = value;
            if(bestVal >= beta) {
                break;
            } else if(bestVal > a)
                a = bestVal;
        }
    }
    if(bestVal > alpha) {
        e.lowerBound = bestVal;
        e.move = best;
        table.store(e);
    }
    if(bestVal < beta) {
        e.upperBound = bestVal;
        table.store(e);
    }

    return bestVal;
}

Dieser Link stellt zudem noch eine Verbesserung des regulären Alpha-Beta-Algorithmuses vor. Auch hier ist das Ziel die Anzahl Knoten die pro Tiefe analysiert werden müssen zu minimieren.
Eine andere Optimierung ist der Algorithmus PVS/NegaScout.

Viele Informationen finden sich im Computer Schach-Wiki. Zumindest alle Informationen bezüglich der Suche sind auch für Reversi relevant.