Was bedeutet Pandas

Pandas (siehe Pandas Schulung) ist ein Open-Source-Python-Paket, das am häufigsten für Data Science (siehe Data Science Seminare) / Datenanalyse (mehr Infos Datenanalyse Seminare) und Aufgaben des maschinellen Lernens verwendet wird. Es baut auf einem anderen Paket namens Numpy auf, das Unterstützung für mehrdimensionale Arrays bietet. Als eines der beliebtesten Pakete zur Datenverarbeitung arbeitet Pandas gut mit vielen anderen Data-Science-Modulen innerhalb des Python-Ökosystems zusammen und ist in der Regel in jeder Python-Distribution enthalten, von denen, die mit Ihrem Betriebssystem (siehe auch Betriebssystem Seminar) geliefert werden, bis hin zu kommerziellen Anbieter-Distributionen wie ActivePython von ActiveState.
Pandas macht es einfach, viele der zeitaufwändigen, sich wiederholenden Aufgaben zu erledigen, die mit der Arbeit mit Daten verbunden sind, einschließlich:

Datenbereinigung
Daten füllen
Normalisierung von Daten
Zusammenführen und Verknüpfen
Visualisierung von Daten
Statistische Auswertung
Prüfen von Daten
Laden und Speichern von Daten

Pandas ist ein Python-Paket, das schnelle, flexible und ausdrucksstarke Datenstrukturen bereitstellt, um die Arbeit mit strukturierten (tabellarischen, mehrdimensionalen, potenziell heterogenen) und Zeitreihendaten einfach und intuitiv zu gestalten. Es zielt darauf ab, ein grundlegender High-Level-Baustein für die praktische, reale Datenanalyse in Python (mehr Infos Python Training) zu sein. Darüber hinaus hat es das Ziel, das mächtigste und flexibelste Open-Source-Werkzeug zur Datenanalyse und -manipulation zu werden, das in irgendeiner Sprache verfügbar ist. Es ist bereits auf dem besten Weg, dieses Ziel zu erreichen.

Pandas ist eine so beliebte Bibliothek, dass selbst Nicht-Python-Programmierer und Data-Science-Profis schon ausgiebig davon gehört haben. Und wenn Sie ein erfahrener Python-Programmierer sind, dann werden Sie genau wissen, wie flexibel die Pandas-Bibliothek ist.

Pandas ist eine der grundlegenden Bibliotheken, auf die jeder Datenwissenschaftler stößt. Es ist eine sehr leistungsfähige, schnelle und einfach zu bedienende Python-Bibliothek, die für die Datenanalyse und -manipulation verwendet wird. Vom Erstellen der Datenframes bis zum Lesen von Dateien eines anderen Formats, sei es eine Textdatei, CSV, JSON, oder vom Zerschneiden und Würfeln der Daten bis zum Kombinieren mehrerer Datenquellen, Pandas ist eine Lösung aus einer Hand.

Die beiden primären Datenstrukturen von pandas, Series (1-dimensional) und DataFrame (2-dimensional), behandeln die große Mehrheit der typischen Anwendungsfälle in den Bereichen Finanzen, Statistik (siehe Statistik Schulungen) , Sozialwissenschaften und vielen Bereichen der Technik. Für R-Benutzer bietet DataFrame alles, was R (mehr Infos R Schulungen) 's data.frame bietet und noch viel mehr. pandas baut auf NumPy auf und ist dafür gedacht, sich gut in eine wissenschaftliche Berechnungsumgebung mit vielen anderen Bibliotheken von Drittanbietern zu integrieren.

Hier sind nur ein paar der Dinge, die pandas gut kann:

Einfache Behandlung von fehlenden Daten (dargestellt als NaN) in Fließkomma- sowie Nicht-Fließkommadaten
Größenveränderlichkeit: Spalten können in DataFrame und höherdimensionalen Objekten eingefügt und gelöscht werden
Automatische und explizite Datenausrichtung: Objekte können explizit an einem Satz von Beschriftungen ausgerichtet werden, oder der Benutzer kann die Beschriftungen einfach ignorieren und die Daten in Berechnungen automatisch von Series, DataFrame usw. ausrichten lassen
Leistungsstarke, flexible Gruppierungsfunktionalität zum Durchführen von Split-Apply-Combine-Operationen auf Datensätzen, sowohl zum Aggregieren als auch zum Transformieren von Daten
Einfaches Konvertieren von zackigen, unterschiedlich indizierten Daten in anderen Python- und NumPy-Datenstrukturen in DataFrame-Objekte
Intelligentes Label-basiertes Slicing, ausgefallene Indizierung und Subsetting von großen Datensätzen
Intuitives Zusammenführen und Verbinden von Datensätzen
Flexible Umformung und Pivotierung von Datensätzen
Hierarchische Beschriftung von Achsen (mehrere Beschriftungen pro Tick möglich)
Robuste IO-Werkzeuge zum Laden von Daten aus Flat Files (CSV und delimited), Excel-Dateien, Datenbanken und Speichern/Laden von Daten aus dem ultraschnellen HDF5-Format
Zeitreihen-spezifische Funktionalität: Generierung von Datumsbereichen und Frequenzkonvertierung, Statistiken für gleitende Fenster, Datumsverschiebung und -verzögerung.

Viele dieser Prinzipien sind hier, um die Unzulänglichkeiten zu beheben, die häufig bei der Verwendung anderer Sprachen / wissenschaftlicher Forschungsumgebungen auftreten. Für Datenwissenschaftler gliedert sich die Arbeit mit Daten typischerweise in mehrere Phasen: das Mischen und Bereinigen von Daten, die Analyse / Modellierung, dann die Organisation der Ergebnisse der Analyse in eine Form, die für die Darstellung in Plots oder Tabellen geeignet ist. pandas ist das ideale Werkzeug für all diese Aufgaben.