HtmlCleaner ist Java-Bibliothek zum Parsen und Transformieren von HTML zu XML. HtmlCleaner kann in Java-Code, als Kommandozeilen-Tool oder als Ant-Task eingesetzt werden. Das Ergebnis des Parsens ist ein Document Object Model, das zu Standards wie DOM oder JDom transformiert oder zur XML-Ausgabe serialisiert werden kann. Version 2.0 wartet u.a. mit einer Reihe von Methoden für Knoten und Attribut-Manipulation im Document Object Model, XPath-Support in HtmlCleaner DOM, einer XML-Konfigurationsdatei zum Erstellen von benutzerdefinierten Tag-Sets und Regeln für Tag-Balancing sowie einigen Bugfixes und API-Verbesserungen auf.






