Kodowanie danych jakościowych

Kodowanie danych jakościowych

Bez względu na stosowane paradygmaty badawcze – a te mogą, wśród przedstawicieli różnych nauk społecznych być rozmaite – kodowanie danych jakościowych jest nieodłącznym elementem analizy danych jakościowych, podnoszącym jakość analizy i wyprowadzanych z niej wniosków.
W niniejszym tekście chciałbym pokrótce scharakteryzować najistotniejsze elementy, etapy i decyzje związane z kodowaniem danych jakościowych, wskazując dodatkowe źródła wiedzy na temat kodowania. Jeśli chodzi o źródła danych, kodować można… prawie wszystko: transkrypcje wywiadów, notatki badawcze z obserwacji uczestniczącej, dokumenty (np. pisma urzędowe, akty prawne), dzienniki, literaturę, zdjęcia, filmy, strony internetowe, korespondencję (w tym elektroniczną) i wiele innych. Stąd znajomość zasad i metod kodowania wydaje się niezbędna w warsztacie każdego badacza.

Czym są kody? Typy kodów

Kody, w badaniach jakościowych, to najczęściej krótkie słowo lub wyrażenie, za pomocą którego, badacz dokonuje przypisania jakiejś cechy do danych: tekstowych, wizualnych (np. fragmentu wypowiedzi respondenta, zdjęcia itp.). Cecha ta odpowiada temu, co badacz uznaje za istotę, najważniejszy element czy też sens kodowanej porcji materiału.
W pewnym stopniu przypomina to to, znane np. z mediów społecznościowych, tagi czy hasztagi, ale porównanie to jest uprawnione tylko w ograniczonym stopniu.

Przykład 1

Tekst Kod
(…) I should start by saying that this doesn't mean we're in anybody's pocket MANIFESTING INDEPENDENCE

Kody, w swym charakterze mogą być bardziej opisowe (gdy badacz stara się za pomocą kodu maksymalnie wiernie oddać treść materiału) lub bardziej analityczne/teoretyczne (wówczas, gdy badacz próbuje przy pomocy kodu wyrazić sens kodowanego materiału – z perspektywy swojego rozumienia, stosowanej siatki pojęciowej, perspektywy teoretycznej itp.). Jakkolwiek niektóre podejścia stosowane w ramach jakościowej analizy danych, np. teoria ugruntowana, podkreślają znaczenie kodów opisowych w analizie, warto zauważyć, że bardzo rzadko jakościowa analiza poprzestaje na zakodowaniu materiału przy pomocy kodów opisowych (byłoby to coś w rodzaju streszczenia, nie pełnej analizy). Szczególną grupę kodów stanowią tzw. kody in vivo, tzn. fragmenty tekstu (cytaty) na tyle charakterystyczne, że mogą posłużyć same w sobie jako kody.

Przykład 2

Tekst Przykładowe kody opisowe Przykładowy kod analityczny Przykładowy kod in vivo
A lot of our work is focused on cultural and communication industries. culture industry, communication industry specialization "focus on cultural and communication industries"
Komentarz Wymienione, w postaci rzeczowników, dziedziny działalności organizacji. Kod podkreśla głębszy sens kodowanego zdania: wśród różnych działań prowadzonych przez organizację jest taka dziedzina, w której skupia się znaczna część działań, co – w szerszym kontekście, wskazuje na specjalizację organizacji. Ujęcie zakresu działalności organizacji przy pomocy własnych słów respondenta.

Kody in vivo pozwalają na przybliżenie odbiorcom wyników badań perspektywy badanych, niejednokrotnie wydobywając z przedmiotu badań coś nieoczywistego, zaskakującego, świeżego. Stąd też zdarza się, że są później wykorzystywane np. do tworzenia nagłówków lub śródtytułów w raportach badawczych.

Ważne, by kodów nie utożsamiać z innymi pojęciami charakterystycznymi dla jakościowej analizy danych: kategoriami (categories) i wątkami (themes), które mają nadrzędny, porządkujący bądź analityczno-teoretyczny charakter. Kategorie to wiązki/grupy kodów, elementy porządkujące kody w obrębie hierarchii kodów lub tzw. książki kodowej. Do tworzenia kategorii przechodzi się po uprzednim zakodowaniu tekstu, choć mogą one powstać również w wyniku wcześniejszego przygotowania do kodowania (o czym dalej). O włączeniu jakiegoś kodu do szerszej kategorii powinny decydować precyzyjnie określone (co nie wyklucza ich dopracowywania w trakcie całego procesu) reguły włączenia do kategorii. Wątki z kolei to zazwyczaj kilka najważniejszych tematów, problemów, odkryć lub pojęć, wokół których badacz koncentruje pracę w kolejnych etapach jakościowej analizy danych. Różnice pomiędzy pojęciami trafnie oddaje poniższy schemat.

Zgodnie z nim, kody to elementy najbardziej konkretne i jednocześnie najbliższe rzeczywistości reprezentowanej przez źródła danych. Kategorie, stanowią już wyraźny krok w kierunku abstrakcji, myślenia na poziomie pojęć i teorii (jakkolwiek część badaczy jakościowych zachęca do tego, by już na początku kodowania starać się odwoływać do wyższych poziomów abstrakcji poprzez stosowanie kodów analitycznych). Kolejnym krokiem są wątki, a następnie teoria/model teoretyczny (niekoniecznie oznacza to, że każde kodowanie ma kończyć się stworzeniem nowej teorii; chodzi o dążenie do prowadzenia rozumowania i wywodu na poziomie teoretycznym, tj. w oderwaniu od rzeczywistości widzianej oczami badanych).

Proces kodowania

Czym zatem jest kodowanie? Odpowiedź, wbrew pozorom, nie jest prostą pochodną definicji kodu. Zdaniem Gibbsa, kodowanie to „(…) sposób, w jaki [Ty: badacz – przyp. DS] definiujesz, czego dotyczą analizowane przez Ciebie dane. Wiąże się to z identyfikacją i rejestrowaniem jednego lub więcej fragmentów tekstu albo innego rodzaju danych (…), które wyrażają, na poziomie teoretycznym lub opisowym, tę samą ideę” (Gibbs, 2008: 38, pogr. DS).
Warto zwrócić uwagę na dwa, wyróżnione w tej definicji zagadnienia. Po pierwsze, definicja ta nie kryje, że kodowanie jest mocno zależne od samego badacza, jest odbiciem unikalnego, partykularnego spojrzenia badacza na posiadane dane i pożądany sposób analizowania tych danych (coś, co można nazwać przyjmowaną przez badacza „filozofią kodowania”). Po drugie, definicja wskazuje na czynności, jakich trzeba dokonywać w procesie kodowania (owa identyfikacja i rejestracja to nic innego, jak np. czytanie tekstu, zakreślenia, podkreślenia, tworzenie kodów, notatek-memów itp.). Takie rozumienie kodowania jest o tyle wartościowe, że poza podejściem technicznym, poprzez zestaw czynności, jakich trzeba dokonać, akcentuje również konieczność autorefleksji i podjęcia decyzji badawczo-analitycznych. Bo kodowanie, to integralny element analizy danych. Od wyboru sposobu kodowania oraz jakości tego procesu zależy, co będziemy mogli osiągnąć, do jakich wniosków dojść na dalszych etapach analizy danych jakościowych.

Można wyróżnić dwa główne podejścia do kodowania danych. Pierwsze, oparte na ścisłym związku z danymi, zakładające stopniowe tworzenie wniosków analitycznych (data driven coding, stanowiące podstawę m.in. realizacji założeń teorii ugruntowanej) oraz tzw. kodowanie a priori (concept driven coding), nastawione na odnajdywanie w posiadanych danych śladów odnoszących się do przyjętej wcześniej siatki pojęciowej, modelu teoretycznego, hipotez itp. Wybór podejścia jest uzależniony zarówno od preferencji badacza i stosowanego paradygmatu badawczego, jak i kontekstu, w jakim prowadzona jest analiza danych jakościowych. Zazwyczaj inaczej podchodzimy to kodowania i analizy danych jakościowych, gdy badania jakościowe stanowią podstawowy bądź jedyny komponent projektu badawczego, a inaczej, gdy pełnią w projekcie rolę pomocniczą bądź uzupełniającą. Wskazówką pomocną w wyborze właściwego podejścia są zarówno cele badawcze, jak i dostępne zasoby, m.in. czas (zwykle potrzeba go więcej w przypadku kodowania opartego na danych). Oprócz podejścia, wyboru należy dokonać również w zakresie metody kodowania. Saldaña w swojej książce (2009) wyróżnia 29 metod kodowania, różniących się między sobą m.in. przedmiotem zainteresowania (na co zwraca się uwagę w trakcie kodowania) oraz przydatnością ze względu na etap zaawansowania procesu kodowania (autor wyróżnia tzw. pierwszy - First Cycle i drugi - Second Cycle, cykl kodowania i adekwatne dla nich metody - pisze o tym w dalszej części tekstu). Źródło to stanowi wspaniały zasób porządkujący sposób myślenia o kodowaniu oraz prezentujący praktyczne podejście do kodowania w ramach opisywanych metod. Każda z nich ma swoje mocne i słabe strony, w związku z czym należy podkreślić stanowisko Saldañy, który określa swoje podejście jako „pragmatyczny eklektyzm”. W istocie zaleca on dość swobodne łączenie ze sobą – w zależności od potrzeb badacza i celów badania – różnych metod pierwszego i drugiego cyklu w unikalną „mieszankę”, dobraną specjalnie pod kątem konkretnej analizy danych.

Skoro mowa o cyklach kodowania, trzeba wyraźnie wskazać jeszcze jedną cechę kodowania danych jako procesu – cykliczność i iteracyjność. W miarę odkrywania znaczeń ukrytych w kodowanych danych, porządkowania kodów, testowania różnych związków i hipotez w oparciu o dane, kodowanie powtarza się wielokrotnie, aż do uzyskania spójnego i satysfakcjonującego w wymiarze teoretycznym obrazu, jaki wyłania się z danych. Nie jest niczym szczególnym np. 3 lub 4-krotne kodowanie tego samego materiału. Rzadkością natomiast jest sytuacja (i w zasadzie oznacza one powierzchowną analizę danych), gdy badacz wykonuje tylko jeden cykl kodowania. Po każdym cyklu kodowania wykonuje się czynności porządkujące na kodach (kategoryzacja, rekategoryzacja, budowa bądź rozbudowa książki kodowej) oraz czynności analityczne (m.in. tworzenie map pojęciowych, analiza porównawcza itp.). Dobrą praktyką jest również sprawdzenie rzetelności kodowania poprzez zakodowanie części materiału przez innego badacza(y) i ocenę zgodności – może to prowadzić to kolejnego cyklu poprawek, uspójnień itp.

Różnice w zakresie stosowanych podejść, kontekstu kodowania, stosowanych metod, liczby cykli kodowania i wielkości zespołu zaangażowanego w kodowanie sprawia, że każdy proces kodowania jest w pewien sposób inny, unikalny. Chcąc jednak nakreślić kilka wskazówek, opisujących najbardziej typowe elementy procesu kodowania, należałoby wymienić następujące etapy:

  1. przygotowanie danych do kodowania – może polegać np. na ujednoliceniu formatu plików, podzieleniu tekstu na fragmenty, np. akapity lub – w przypadku kodowania „linijka po linijce”, stosowanego w teorii ugruntowanej, na numeracji wierszy;
  2. przygotowanie badacza (kodera) do kodowania – zebranie w zasięgu ręki materiałów pomocniczych, mogących usprawnić kodowanie, np. „ściągawki” z najważniejszymi założeniami teoretycznymi, pojęciami, pytaniami badawczymi itp.;
  3. pierwsze czytanie (oglądanie, słuchanie) i tzw. pre-kodowanie – polega na zapoznaniu się z tekstem, próbą zrozumienia jego treści i jednoczesnego zaznaczania (podkreślenia, zakreślenia, notatki na marginesie itp.) fragmentów, które wydają się badaczowi ważne lub nietypowe, czy wręcz zaskakujące. Mogą to być pojedyncze słowa, znaczenia, w jakich zostały użyte, może to być również jakiś bardzo charakterystyczny cytat;
  4. pierwszy cykl kodowania – podczas którego zazwyczaj badacz stara się „być blisko danych”, będąc otwartym i kodowym na dalszą pracę z kodami, ich zmianę, kategoryzację, ponowne kodowanie itp. Jednocześnie ze względów praktycznych warto na początku kodowania zidentyfikować dwa, najbardziej różniące się przypadki (np. transkrypcje wywiadów) i zacząć od ich zakodowania, co pozwoli na szybkie uchwycenie zróżnicowania w kodach. Ma to oczywiście znaczenie dla dalszych kroków w analizie danych, działając pobudzająco na czujność badacza i otwartość na różne scenariusze i interpretacje;
  5. przygotowanie książki kodowej – przy kodowaniu opartym na danych, zazwyczaj jej tworzenie rozpoczyna się po pierwszej rundzie kodowania, niemniej jednak w podejściu a priori książka kodowa może powstać przed przystąpieniem do kodowania (co nie wyklucza jej modyfikacji, nawet gruntownej, w trakcie kodowania);
  6. hierarchizacja i kategoryzacja kodów – służy uporządkowaniu listy kodów/książki kodowej, tworzeniu kategorii (wiązek kodów posiadających coś wspólnego) analitycznych, dopracowaniu kodów (m.in. poprzez zmianę, zamianę, usunięcie, dodanie kodu, uszczegółowienie itp.) i umożliwieniu analizy porównawczej (pomiędzy kategoriami), jak również identyfikacji najważniejszych wątków;
  7. drugi cykl kodowania – obejmujący metody operujące na wyższym poziomie abstrakcji;
  8. dopracowanie wątków, analiza zależności pomiędzy nimi, opracowanie modelu wyjaśniającego;

Jak wspomniano, każde kodowanie jest inne, na przykład nie każde musi kończyć się opracowaniem jakiegoś modelu teoretycznego. W przypadku zaangażowania zespołu koderów, z pewnością należałoby wśród wyżej wymienionych etapów uwzględnić też tzw. kodowanie krzyżowe (cross-coding, multiple coding), polegajace na kodowaniu tych samych danych przez różne osoby w celu zwiększenia rzetelności kodowania.

Wymienionych etapów i czynności nie należy traktować jako zamkniętą listę. Najważniejsze, by w trakcie kodowania pamiętać, że mamy do czynienia z procesem otwartym, wrażliwym na założenia i doświadczenia badacza(y) i dopuszczającym wiele metod postępowania z danymi, w związku z czym kodując należy wystrzegać się automatyzmu i pośpiechu.

Co podlega kodowaniu?

W trakcie kodowania, przedmiotem zainteresowania badacza mogą być – w zależności od celów badania:

  • zachowania i działania,
  • wydarzenia, praktyki, rutynowe działania bądź nawyki,
  • strategie postępowania,
  • uczucia i emocje,
  • stany (opisujące sytuację badanych bądź rzeczywistość),
  • warunki, ograniczenia i bariery,
  • znaczenia nadawane np. słowom, ludziom, wydarzeniom,
  • relacje i interakcje między obiektami,
  • zmiany i procesy,
  • konsekwencje, efekty, skutki,
  • styl autoprezentacji (zdjęcia, opis słowny),
  • sygnały świadczące o wpływie badacza na przebieg badaniach,
by wymienić te najczęstsze. Przedmiot zainteresowania w wielu przypadkach łączy się z konkretną metodą kodowania, np. działania i różnego rodzaju aktywność można kodować przy pomocy kodowania procesu (process coding), wykorzystującego imiesłowy (w języku angielskim gerunds, kończące się na -ing), a uczucia i emocje przy pomocy kodowania emocji (emotion coding) (por. Saldaña, 2009). Warto pamiętać o takiej zależności w momencie, gdy zastanawiamy się od czego zacząć kodowanie naszego materiału badawczego lub też w jaki sposób możemy pogłębić prowadzoną analizę danych jakościowych. Wybór sposobu kodowania oraz stosowanych metod nie pozostaje bez znaczenia dla doboru optymalnego oprogramowania wspierającego analizę danych jakościowych (CAQDAS – Computer Assisted Qualitative Data Analysis Software). Dostępne narzędzia oferują zarówno pakiet wspólnych, podstawowych możliwości, jak i dodatkowe korzyści wynikające z implementacji założeń, np. teorii ugruntowanej. To już jednak materiał na osobne opracowanie.

Źródła bibliograficzne:

G.R.Gibbs, (2008), Analysing Qualitative Data, SAGE Publications Ltd.
J. Saldaña, (2009), The Coding Manual for Qualitative Researchers, SAGE Publications Ltd.

Polecana literatura dodatkowa:

K. Konecki, (2008) Wizualna teoria ugruntowana. Rodziny kodowania wykorzystywane w analizie wizualnej w: Przegląd Socjologii Jakościowej, Tom IV Numer 3. Pobrany 02/2016, (http://www.qualitativesociologyreview.org/PL/archive_pl.php)
K. Charmaz, (2006), Constucting Grounded Theory: A Practical Guide through Qualitative Analysis, SAGE Publications Ltd.
Gläser, Jochen & Laudel, Grit (2013). Life With and Without Coding: Two Methods for Early-Stage Data Analysis in Qualitative Research Aiming at Causal Explanations [96 paragraphs]. Forum Qualitative Sozialforschung / Forum: Qualitative Social Research, 14(2), Art. 5, http://nbn-resolving.de/urn:nbn:de:0114-fqs130254.

Polecane materiały online:

Graham Gibbs – Coding in qualitative data analysis, playlista na YB zawierająca 5 krótkich nagrań z wykładu prof. Gibbsa, https://www.youtube.com/playlist?list=PL14E49EDF20613008; również na YB dostępne nagrania z innych, ciekawych wykładów i wywiadów tego badacza: https://www.youtube.com/user/GrahamRGibbs

Sposób cytowania:

D. Szklarczyk, Kodowanie danych jakościowych, Fundacja Rozwoju Badań Społecznych, Kraków, 2016. link: http://www.furbs.org/index.php?id=21&type=article
Powrót

Drogi Gościu

Informujemy, że kontynuując przeglądanie tej strony wyrażasz zgodę na zapisywanie na Twoim komputerze tzw. plików cookies.

Pozwalają nam one gromadzić informacje dotyczące statystyk oglądalności strony.

Jeżeli nie wyrażasz zgody na zapisywanie ich, zmień ustawienia swojej przeglądarki internetowej.