jCAPT Java Content Assembling and Packaging Tools

2.7.5. Metadaten extrahieren

Metadaten spielen eine wichtige Rolle für die Verwaltung von Lernpaketen. Nur duch sie können Lernpakete gefunden und in ihrer Eignung für einen bestimmten Anwendungsfall bewertet werden. Ein Problem ist jedoch die mangelnde Auszeichnung von Lernpaketen mit Metadaten. Oft fehlen jedwede Metadaten bzw. sind nur lückenhaft und in zweifelhafter Qualität vorhanden.

Eine Abhilfe hofft hier die automatische Bestimmung von Metadaten zu schaffen. Mit ihr sollen Standardfelder mit maschinell auffindbaren Werten gefüllt werden. Eine Möglichkeit ist hier, auf schon vorhandene Metadaten in den Ressourcen zurückzugreifen und diese zu extrahieren.

jCAPT unterstützt die Extraktion gewisser Metadaten aus Ressourcen. Hierbei werden folgende Dateitypen (mit Endung) und ihr jeweiliger Inhalt unterstützt:

  • HTML-Dateien (.html, .htm):

    • Sprache der Ressource: aus der im HTML-Metadatensatz gespeicherten Sprache. Im Metadatensatz werden zwei Arten der Angabe unterstützt:

      • HTML-spezifisches Feld:

        z.B. <meta http-equiv="content-language" content="de">

      • Dublin Core-Feld

        z.B. <meta name="DC.language" content="de">

      Falls kein Metadatensatz vorhanden ist bzw. dieser nicht gelesen werden kann, so wird eine Wortanalyse des Texts zur Unterscheidung zwischen Englisch und Deutsch vorgenommen.

    • Titel: aus dem title-Element der HTML-Datei

    • Schlüsselwörter: aus den im HTML-Metadatensatz gespeicherten Schlüsselwörtern. Im Metadatensatz werden zwei Arten der Angabe unterstützt:

      • HTML-spezifisches Feld:

        z.B. <meta name="keywords" content="Wort1, Wort2">

      • Dublin Core-Feld:

        z.B. <meta name="DC.subject" content="Wort1, Wort2">

  • PDF-Dateien (.pdf):

    • Sprache der Ressource: mittels Wortanalyse des Texts und Unterscheidung zwischen Englisch und Deutsch

    • Titel: aus dem im PDF-Metadatensatz gespeicherten Titel

    • Schlüsselwörter: aus den im PDF-Metadatensatz gespeicherten Schlüsselwörtern

  • Microsoft Office Dateien (.doc, .xls, .ppt):

    • Titel: aus dem im Metadatensatz der Ressource gespeicherten Titel

    • Schlüsselwörter: aus den im Metadatensatz der Ressource gespeicherten Schlüsselwörtern

Metadaten werden in jCAPT aus Ressourcen, auf die ein Ressource-Referenz-Knoten verweist, extrahiert. Anschließend werden Sie in einem entsprechenden Metadatensatz zum jeweiligen Ressource-Referenz-Knoten hinzugefügt. Verwendet wird hierzu das IMS LRM Schema in den Versionen 1.1.1, 1.1.2 oder 1.1.3. Falls ein Metadatensatz in einem derartigen Schema vorhanden ist, so wird er um die Metadaten aus der Extraktion ergänzt. Ist keiner vorhanden, wird ein neuer mit den extrahierten Metadaten erstellt.

Das Starten der Metadatenextraktion kann auf zweierlei Arten erledigt werden:

In beiden Fällen wird der Extraktionsprozes gestartet. Der Verlauf des Extraktionsvorganges wird über eine Fortschrittsanzeige visualisiert. Über die Schaltfläche Abbrechen kann die Extraktion abgebrochen werden.

Fortschrittsanzeige beim Extrahieren von Metadaten.

Abbildung 2.195. Fortschrittsanzeige beim Extrahieren von Metadaten.

Am Ende des Extraktionsprozesses wird das aktuelle CPS-Paket aus technischen Gründen automatisch geschlossen und wieder geöffnet. Anschließend erscheint eine Meldung, welche die erfolgreiche Extraktion bestätigt. Im Statusfenster können Sie bei der Extraktion eventuell aufgetretene Fehler sehen.

Metadaten erfolgreich extrahiert.

Abbildung 2.196. Metadaten erfolgreich extrahiert.

Unterhalb der Ressource-Referenz-Knoten können Sie im Anschluss die extrahierten Metadaten finden. Falls bei einem (oder mehreren) Ressource-Referenz-Knoten der Metadatensatz fehlt, so wurden entweder keine gefunden oder der Dateityp der Ressource wird nicht unterstützt.

Copyright 2006, FIM Institut für Informationsverarbeitung und Mikroprozessortechnik