Skip to article frontmatterSkip to article content

5.1Dateiformat CSV

Humboldt-Universität zu Berlin, Institut für Bibliotheks- und Informationswissenschaft

Das Dateiformat CSV (comma separated values, .csv) ist ein gängiges Format für den Austausch tabellarischer Daten. Wie der Name sagt nutzt eine “klassische” CSV-Datei Kommata für die Trennung von einzelnen Werten (Spalten). Oft wird aber auch ein Semikolon genutzt.

Struktur einer CSV-Datei

Eine CSV-Datei sieht typischerweise so aus:

Alle Werte in der CSV-Datei werden als Text (Zeichenkette, String) abgespeichert und auch so eingelesen. Sollen manche Werte/Spalten bspw. als Zahl interpretiert werden, so muss diese Transformation explizit durchgeführt werden.

Ein Datensatz entspricht in einer CSV-Datei immer einer Zeile in der Datei. Die Reihenfolge der Zeilen ist normalerweise nicht sinntragend, d.h. wenn ein anderer Datensatz “referenziert” werden soll, dann sollte dies über eindeutige IDs in Schlüsselspalten geschehen und nicht über einen Zeilen-Index.

Zellen können Leerzeichen enthalten. Zellen können optional mit doppelten Anführungsstrichen umschlossen sein. Dann können auch Zeichen wie , oder \r (CR, Carriage Return),\n (LF, Line Feed, Newline) in der Zelle stehen. Manche Programme können jedoch nicht mit solchen Dateien umgehen, weshalb dies nicht unbedingt empfohlen wird. Dies ist auch einer der Gründe, warum häufig ein Semikolon für die Spalten-Trennung genutzt wird. Das Semikolon wird innerhalb typischer Daten viel seltener genutzt als das Komma.

Beispieldateien

id, family name, given name, birthdate
0, musterfrau, martha, 1.2.2003
1, müller, kim, 1999-8-7
2, 王, 祖寇, February 21 2005
index;date;time;temp
2;2025-10-10;11:51:02;21.4
3;2025-10-10;11:51:12;21.5
6;2025-10-10;11:57:05;21.1
7;2025-10-10;11:57:20;21.6
"Matrikel Nr.", "Nachname", "Vorname", "Adresse", "HZB"
"123456", "Aa-Bb", "Ccc", "Muster Str. 7b", "2,4"
"234567", "Aa", "Ddd", "Deppendorf 12", "1,0"
"345678", "Bb", "Eee", "Alexanderplatz 4", "1,3"

Es gibt auch das verwandte Dateiformat TSV (tabulator separated values, .tsv), welches einen Tabulator (\t) als Trennzeichen nutzt.

Matrikel Nr.\tNachname\tVorname\tAdresse\tHZB
123456\tAa-Bb\tCcc\tMuster Str. 7b\t2,4
234567\tAa\tDdd\tDeppendorf 12\t1,0
345678\tBb\tEee\tAlexanderplatz 4\t1,3

Synthetische Testdaten für dieses Kapitel

In diesem Kapitel nutzen wir die syntetisch erstellte CSV-Datei books_powerlaw_dataset.csv, welche mit dem Skript generate_csv.py generiert wurde. Da das Skript die Buchreihenfolge randomisiert ist es (nahezu) unmöglich, die gleiche Test-Datei erneut herzustellen.

Hier sehen Sie die ersten 40 Zeilen der Datei.

books_powerlaw_dataset.csv
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
isbn,author,year,title,sales_year,sales
9780241951446,"Murakami, Haruki",1984,Norwegian Wood,2020,61
9783518587249,"Boltanski, Luc",1999,Der neue Geist des Kapitalismus,2020,40
9780141185422,"Joyce, James",1922,Ulysses,2020,15
9783518587157,"Latour, Bruno",2017,Kampf um Gaia,2020,15
9783518587010,"Harari, Yuval Noah",2013,Eine kurze Geschichte der Menschheit,2020,14
9780143124276,"Rushdie, Salman",1981,Midnight's Children,2020,14
9783518587287,"Han, Byung-Chul",2016,Die Austreibung des Anderen,2020,8
9780141439600,"Dickens, Charles",1861,Great Expectations,2020,8
9780141439471,"Woolf, Virginia",1927,To the Lighthouse,2020,8
9780143058144,"Morrison, Toni",1987,Beloved,2020,8
9780374533557,"Knausgård, Karl Ove",2009,My Struggle: Book 1,2020,8
9783596196036,"Kafka, Franz",1925,Der Prozess,2020,8
9783518587119,"Mbembe, Achille",2016,Politik der Feindschaft,2020,8
9780141439518,"Orwell, George",1949,Nineteen Eighty-Four,2020,7
9783446254251,"Kahneman, Daniel",2012,"Schnelles Denken, langsames Denken",2020,7
9780141439556,"Brontë, Charlotte",1847,Jane Eyre,2020,7
9783518587164,"Sloterdijk, Peter",1998,Sphären I,2020,7
9783518587201,"Rosa, Hartmut",2016,Resonanz,2020,7
9780374530532,"Atwood, Margaret",1985,The Handmaid's Tale,2020,7
9780374532741,"Ferrante, Elena",2011,My Brilliant Friend,2020,7
9783518293454,"Luhmann, Niklas",1984,Soziale Systeme,2020,6
9783518465905,"Foucault, Michel",1975,Überwachen und Strafen,2020,6
9783518465196,"Arendt, Hannah",1958,The Human Condition,2020,6
9783518465172,"Adorno, Theodor W.",1951,Minima Moralia,2020,6
9780141182605,"Austen, Jane",1813,Pride and Prejudice,2020,6
9783518293447,"Habermas, Jürgen",1981,Theorie des kommunikativen Handelns,2020,5
9783518465189,"Butler, Judith",1990,Das Unbehagen der Geschlechter,2020,5
9780141439587,"Eliot, George",1871,Middlemarch,2020,5
9783518465202,"Benjamin, Walter",1936,Das Kunstwerk im Zeitalter seiner technischen Reproduzierbarkeit,2020,5
9783518587225,"Bauman, Zygmunt",2000,Liquid Modernity,2020,5
9783596196036,"Kafka, Franz",1925,Der Prozess,2021,151
9780141439518,"Orwell, George",1949,Nineteen Eighty-Four,2021,44
9783518465196,"Arendt, Hannah",1958,The Human Condition,2021,29
9783518465172,"Adorno, Theodor W.",1951,Minima Moralia,2021,24
9780143058144,"Morrison, Toni",1987,Beloved,2021,19
9780141182605,"Austen, Jane",1813,Pride and Prejudice,2021,15
9783518587010,"Harari, Yuval Noah",2013,Eine kurze Geschichte der Menschheit,2021,15
9780141439556,"Brontë, Charlotte",1847,Jane Eyre,2021,13
9780141439600,"Dickens, Charles",1861,Great Expectations,2021,11