ksiazki24h.pl
wprowadź własne kryteria wyszukiwania książek: (jak szukać?)
Twój koszyk:   0 zł   zamówienie wysyłkowe >>>
Strona główna > opis książki

STATYSTYKA PRAKTYCZNA W DATA SCIENCE 50 KLUCZOWYCH ZAGADNIEŃ W JĘZYKACH R I PYTHON


BRUCE P. BRUCE A. GEDECK P.

wydawnictwo: HELION , rok wydania 2021, wydanie II

cena netto: 72.45 Twoja cena  68,83 zł + 5% vat - dodaj do koszyka

Statystyka praktyczna w data science

50 kluczowych zagadnień w językach R i Python


Metody statystyczne są kluczowym narzędziem w data science, mimo to niewielu analityków danych zdobyło wykształcenie w ich zakresie. Może im to utrudniać uzyskiwanie dobrych efektów. Zrozumienie praktycznych zasad statystyki okazuje się ważne również dla programistów R i Pythona, którzy tworzą rozwiązania dla data science. Kursy podstaw statystyki rzadko jednak uwzględniają tę perspektywę, a większość podręczników do statystyki w ogóle nie zajmuje się narzędziami wywodzącymi się z informatyki.

To drugie wydanie popularnego podręcznika statystyki przeznaczonego dla analityków danych. Uzupełniono je o obszerne przykłady w Pythonie oraz wyjaśnienie, jak stosować poszczególne metody statystyczne w problemach data science, a także jak ich nie używać. Skoncentrowano się też na tych zagadnieniach statystyki, które odgrywają istotną rolę w data science. Wyjaśniono, które koncepcje są ważne i przydatne z tej perspektywy, a które mniej istotne i dlaczego. Co ważne, poszczególne koncepcje i zagadnienia praktyczne przedstawiono w sposób przyswajalny i zrozumiały również dla osób nienawykłych do posługiwania się statystyką na co dzień.

W książce między innymi:

  • analiza eksploracyjna we wstępnym badaniu danych
  • próby losowe a jakość dużych zbiorów danych
  • podstawy planowania eksperymentów
  • regresja w szacowaniu wyników i wykrywaniu anomalii
  • statystyczne uczenie maszynowe
  • uczenie nienadzorowane a znaczenie danych niesklasyfikowanych

Przedmowa
Konwencja zastosowana w tej książce
Wykorzystanie przykładów kodu
Podziękowania

Rozdział 1. Badania eksploracyjne
Elementy danych uporządkowanych
Dla pogłębienia wiedzy
Dane stabelaryzowane
Ramki danych i indeksy
Niestabelaryzowane struktury danych
Dla pogłębienia wiedzy
Miary położenia
Średnia
Mediana i estymatory odporne
Wartości odstające
Przykład: miara położenia dla wielkości populacji i wskaźnika morderstw
Dla pogłębienia wiedzy
Miary rozproszenia
Odchylenie standardowe i powiązane estymatory
Estymatory oparte na percentylach
Przykład: szacowanie zmienności dla populacji Stanów Zjednoczonych
Dla pogłębienia wiedzy
Badanie rozkładu danych
Percentyle i boxploty
Tablica częstości i histogramy
Szacowanie i wykresy gęstości rozkładu
Dla pogłębienia wiedzy
Badanie danych binarnych i skategoryzowanych
Moda
Wartość oczekiwana
Prawdopodobieństwo
Dla pogłębienia wiedzy
Korelacja
Wykres punktowy
Dla pogłębienia wiedzy
Badanie dwóch lub więcej zmiennych
Wykres przedziałów heksagonalnych i wykres konturowy (przedstawianie danych numerycznych względem danych numerycznych)
Dwie zmienne skategoryzowane
Dane kategoryzowane i numeryczne
Wizualizacja wielu zmiennych
Dla pogłębienia wiedzy
Podsumowanie

Rozdział 2. Rozkłady danych i prób
Losowy dobór i obciążenie próby
Obciążenie
Dobór losowy
Rozmiar a jakość: kiedy rozmiar ma znaczenie?
Średnia z próby a średnia z populacji
Dla pogłębienia wiedzy
Błąd doboru
Regresja do średniej
Dla pogłębienia wiedzy
Rozkład próbkowania dla statystyki
Centralne twierdzenie graniczne
Błąd standardowy
Dla pogłębienia wiedzy
Próby bootstrapowe
Ponowne próbkowanie a próby bootstrapowe
Dla pogłębienia wiedzy
Przedziały ufności
Dla pogłębienia wiedzy
Rozkład normalny
Standaryzowany rozkład normalny i wykres K-K
Rozkłady z długimi ogonami
Dla pogłębienia wiedzy
Rozkład t-Studenta
Dla pogłębienia wiedzy
Rozkład binarny
Dla pogłębienia wiedzy
Rozkład chi-kwadrat
Dla pogłębienia wiedzy
Rozkład F
Dla pogłębienia wiedzy
Rozkład Poissona i jego pochodne
Rozkład Poissona
Rozkład wykładniczy
Szacowanie współczynnika porażki
Rozkład Weibulla
Dla pogłębienia wiedzy
Podsumowanie

Rozdział 3. Eksperymenty statystyczne i testowanie istotności
Test A/B
Po co Ci grupa kontrolna?
Dlaczego tylko A/B? Dlaczego nie C, D itd.?
Dla pogłębienia wiedzy
Testowanie hipotezy
Hipoteza zerowa
Hipoteza alternatywna
Test jednostronny i test dwustronny
Dla pogłębienia wiedzy
Testy randomizacyjne
Test permutacyjny
Przykład: licznik odwiedzin strony
Zupełny test permutacyjny i bootstrap
Test permutacyjny: podstawa w data science
Dla pogłębienia wiedzy
Istotność statystyczna i p-wartość
p-wartość
Alfa
Kontrowersje związane z p-wartością
Istotność praktyczna
Błędy pierwszego i drugiego rodzaju
Data science i p-wartość
Dla pogłębienia wiedzy
Test t
Dla pogłębienia wiedzy
Testowanie wielokrotne
Dla pogłębienia wiedzy
Stopnie swobody
Dla pogłębienia wiedzy
ANOVA
Statystyka F
Dwustronna ANOVA
Dla pogłębienia wiedzy
Test chi-kwadrat
Test chi-kwadrat: podejście randomizacyjne
Test chi-kwadrat: teoria
Dokładny test Fishera
Znaczenie testu chi-kwadrat w data science
Dla pogłębienia wiedzy
Algorytm Wielorękiego Bandyty
Dla pogłębienia wiedzy
Moc i rozmiar próby
Rozmiar próby
Dla pogłębienia wiedzy
Podsumowanie

Rozdział 4. Regresja i predykcja
Prosta regresja liniowa
Równanie regresji
Dopasowanie wartości i rezydua
Metoda najmniejszych kwadratów
Predykcja a objaśnienie (profilowanie)
Dla pogłębienia wiedzy
Regresja wieloraka
Przykład: wartość domów w King County
Ocena modelu
Kroswalidacja
Dobór modelu i regresja krokowa
Regresja ważona
Dla pogłębienia wiedzy
Predykcja z wykorzystaniem regresji
Niebezpieczeństwa związane z ekstrapolacją
Przedziały ufności i predykcji
Zmienne skategoryzowane w regresji
Zmienne fikcyjne
Zmienne skategoryzowane na wielu poziomach
Uporządkowane zmienne skategoryzowane
Interpretacja równania regresji
Predyktory skorelowane
Współliniowość
Zmienne zakłócające
Interakcje i efekty główne
Diagnostyka regresji
Wartości odstające
Obserwacje wpływowe
Heteroskedastyczność, anormalność i błędy skorelowane
Wykresy częściowych rezyduów i nieliniowość
Regresja wielomianowa i regresja sklejana
Wielomian
Funkcja sklejana
Uogólnione modele addytywne
Dla pogłębienia wiedzy
Podsumowanie

Rozdział 5. Klasyfikacja
Naiwny klasyfikator bayesowski
Dlaczego klasyfikator bayesowski jest niepraktyczny?
Naiwne rozwiązanie
Numeryczne zmienne objaśniające
Dla pogłębienia wiedzy
Analiza dyskryminacyjna
Macierz kowariancji
Liniowy dyskryminator Fishera
Prosty przykład
Dla pogłębienia wiedzy
Regresja logistyczna
Funkcja odpowiedzi logistycznej i logit
Regresja logistyczna i GLM
Uogólnione modele liniowe
Wartości prognozowane na podstawie regresji logistycznej
Interpretacja współczynników i iloraz szans
Regresja liniowa i regresja logistyczna: podobieństwa i różnice
Dopasowanie modelu
Ocena modelu
Analiza reszt
Dla pogłębienia wiedzy
Ewaluacja modeli klasyfikacji
Macierz błędów
Problem mało licznych klas
Precyzja, czułość i swoistość
Krzywa ROC
Pole pod wykresem krzywej ROC
Lift
Dla pogłębienia wiedzy
Strategie dla niezbilansowanych danych
Undersampling
Oversampling i zwiększenie/obniżenie wag
Generowanie danych
Klasyfikacja oparta na kosztach
Badanie prognozy
Dla pogłębienia wiedzy
Podsumowanie

Rozdział 6. Statystyczne uczenie maszynowe
K-najbliższych sąsiadów
Przykład: przewidywanie opóźnienia w spłacie pożyczki
Metryki odległości
Kodowanie 1 z n
Standaryzacja (normalizacja, z-wartość)
Dobór K
KNN w doborze cech
Drzewa decyzyjne
Prosty przykład
Algorytm rekursywnego podziału
Pomiar homogeniczności lub zanieczyszczenia
Zatrzymanie wzrostu drzewa
Kontrolowanie złożoności drzewa w R
Kontrolowanie złożoności drzewa w Pythonie
Prognoza ciągłych wartości
Jak są wykorzystywane drzewa
Dla pogłębienia wiedzy
Bagging i lasy losowe
Bagging
Las losowy
Istotność zmiennej
Hiperparametry
Boosting
Algorytm wzmacniania
XGBoost
Regularyzacja: unikanie nadmiernego dopasowania
Hiperparametry i kroswalidacja
Podsumowanie

Rozdział 7. Uczenie nienadzorowane
Analiza głównych składowych
Prosty przykład
Obliczanie głównych składowych
Interpretacja głównych składowych
Analiza odpowiedniości
Dla pogłębienia wiedzy
Metoda K-średnich (centroidów)
Prosty przykład
Algorytm K-średnich
Interpretacja klastrów
Dobór liczby klastrów
Klasteryzacja hierarchiczna
Prosty przykład
Dendrogram
Algorytm aglomeracyjny
Miary podobieństwa
Klasteryzacja oparta na modelu
Wielowymiarowy rozkład normalny
Mieszaniny rozkładów normalnych
Dobór liczby klastrów
Dla pogłębienia wiedzy
Skalowanie i zmienne skategoryzowane
Skalowanie zmiennych
Zmienne dominujące
Zmienne skategoryzowane i odległość Gowera
Problem z klasteryzacją danych mieszanych
Podsumowanie

Bibliografia
O autorach
Kolofon

296 stron, Format: 17.0x24.0cm, oprawa miękka

Osoby kupujące tę książkę wybierały także:
 

- WYBRANE ZADANIA Z EGZAMINÓW DLA AKTUARIUSZY WRAZ Z ROZWIĄZANIAMI
OSTASIEWICZ W. RED. / I WYJAŚNIENIAMI

- STATYSTYKA BAYESOWSKA NA WESOŁO
KURT W.

Po otrzymaniu zamówienia poinformujemy,
czy wybrany tytuł polskojęzyczny lub anglojęzyczny jest aktualnie na półce księgarni.

 
Wszelkie prawa zastrzeżone PROPRESS sp. z o.o. 2012-2022