„I’am sorry Dave, I’am afraid I can’t do that” (HAL 9000 do astronauty – Dave Bowman’a)

[Clarke, za: Stork]

Kim (lub jak kto woli – czym) jest HAL? To literacka wizja super­komputera, dysponującego lub będącego sztuczną inteligencją. W clarke’owskiej wersji[1] przyszłości HAL 9000 jest idealnym przedstawicielem gatunku SI, rozmawia z astronautami, dba o nich, odpowiada na pytania, sam decyduje o tym co jest dobre a co złe… Czasami nawet w tym przesadza… Jednak to tylko fikcja literacka, choć opracowana została na bardzo silnych podstawach przez Stork’a:

„Jakiś czas temu, w czasie kolacji, znajoma, nie będąca naukowcem, zapytała mnie o moje obowiązki jako szefa naukowców w laboratorium badawczym. Powiedziałem, że najwięcej radości sprawia mi nadzorowanie całej gamy zróżnicowanych projektów, po czym wymieniłem kilka z nich: rozpoznawanie wzorców[2], uczenie maszynowe, sieci neutralne, projektowanie chip’ów, projektowanie superkomputerów, kompresja obrazu, systemy ekspertowe[3], rozpoznawanie pisma ręcznego, analizę dokumentów, zastosowania sieci globalnych takich jak World Wide Web, literackie interfejsy człowiek-maszyna, i tym podobne… Następnie wróciłem do jednej z dziedzin mojej głównej pracy: komputerowe czytanie z ust[4].

‘Oh’, powiedziała, ‘Tak jak HAL’.” [Stork]


[1]  chodzi o „Odyseję Kosmiczną 2001” Arthura C. Clarke’a, sfilmowaną przez Stanley’a Kubricka; czyt.: http://pl.wikipedia.org/wiki/Odyseja kosmiczna 2001 (11.08.2006)

[2]  zob.: http: //pl.wikipedia.org/wiki/Rozpoznawanie wzorc%C3%B3w (11.08.2006), http://en.wikipedia.org/wiki/Pattern recognition (11.08.2006)

[3]  zob.: http://pl.wikipedia.org/wiki/System ekspertowy (11.08.2006), http://en.wikipedia.org/wiki/Expert System (11.08.2006)

[4]  zob.: http://en.wikipedia.org/wiki/Lipreading (11.08.2006)

Pompy są niezależnym i niezawodnym źródłem zasilania szerokiej gamy narzędzi ratowniczych.

W przypadku pomp promieniowych napędzanych silnikiem, dostarczane jest ciśnienie wymagane – dopuszczalne do pracy urządzeń. Ciśnienia te kształtują się różnie w zależności od firm produkujących sprzęt, ich doświadczenia w produkcji sprzętu przemysłowego i wynoszą: dla LUCAS i VEBER HYDRAULIK 630 bar.  dla HOLMATRO 720 bar.

Układ chłodzenia powietrznego silnika w pompach napędzanych silnikami elektrycznymi i spalinowymi chłodzi również zbiornik oleju hydraulicznego w wyniku czego nie ma z zewnątrz  dostępnych gorących części pompy, nawet po długiej pracy.

Pompy wyposażone są w czujniki poziomu oleju , które w przypadku jego zbyt małej ilości w układzie hydraulicznym lub skrzyni korbowej silnika powodują jej wyłączenie. Ponadto  wyposażone są w zawory bezpieczeństwa ograniczające powstawanie nadmiernego ciśnienia.

W zależności od wersji pompy mogą one obsługiwać:

  • jedno urządzenie
  • dwa urządzenia przemiennie
  • dwa urządzenia jednocześnie

Praca odbywa się w trybie dwustopniowym to znaczy, gdy urządzenie nie jest obciążone działa szybciej, (części robocze narzędzi ratowniczych poruszają się szybciej), natomiast w przypadku wzrostu obciążenia zwiększa się siła narzędzi kosztem utraconej prędkości działania. Dzięki temu mechanizmowi narzędzie hydrauliczne szybciej wykonuje jałowe ruchy, a w momencie napotkania oporu zaczyna się jego właściwe działanie – np. ściskanie czy rozpieranie przy małej już prędkości.

Dane techniczne pomp

W zależności od zapotrzebowania, rodzaju napędzanych narzędzi, ich ilości i możliwości jednoczesnej pracy, pompy hydrauliczne posiadają różne wydajności przepływu oleju hydraulicznego. Poniżej przedstawiam parametry techniczne pomp firmy LUCAS i HOLMATRO z silnikiem spalinowym benzynowym.

Producent LUCAS HOLMATRO
Typ pompy GA-4T GO-3T GS-2T PPU 10 PU 2035 PU 2060
Parametry

Wydajność :

bez obciążenia          -l/min

pełne obciążenie-       l/min

ciśnienie robocze-      l/min

pojemność użytkowa zbiornika oleju –        litr

waga –                        kg

 

 

2,0

0,55

630

 

1,6

25

 

 

2,15

0,64

630

 

2,0

21,6

 

 

2×2,8

2×0,8

630

 

 

37,5

 

 

2.05

0,55

720

 

1,7

22,8

 

 

2,4

0,7

720

 

2,5

2,0

 

 

2×2,85

2×0,7

720

 

2,9

48

Zastosowanie

Pompy wielotłoczkowe odznaczają się małymi wymiarami, małą masą i małą bezwładnością części wirujących. Znajdują między innymi zastosowanie w hydraulicznych napędach obrabiarek, urządzeniach lotniczych, maszynach budowlanych i urządzeniach transportowych. W służbach ratowniczych pompy hydrauliczne przeznaczone są do zasilania narzędzi ratowniczych.

Obsługa

Celem prawidłowego uruchomienia, a w dalszej konsekwencji prawidłowej obsługi należy zawsze starannie zapoznać się z instrukcja obsługi pompy. Stosowanie urządzeń może być tylko zgodne z przewidzianym przeznaczeniem. Ustawione są na stałe maksymalne ciśnienie, którego w żadnym wypadku zmieniać nie wolno.

Przed przystąpieniem do obsługi obsługujący powinien być zaopatrzony w odzież ochronną w tym:

  • hełm z wizjerem lub okularami
  • rękawice ochronne
  • kombinezon ochronny

Sprawdzenie działania pompy.

  1. Upewnić się czy pompa stoi na stałym podłożu.
  2. Zapewnić właściwą wentylację.
  3. Sprawdzić poziom oleju hudraulicznego.

Pompa ma wbudowany zawór nadmiarowy. Zaraz po uruchomieniu silnika zaczyna  zwiększanie ciśnienia. Przy otwartym zaworze nadmiarowym ciśnienie      przepuszczane jest do zbiornika pompy. Jest to tzw. „mały obieg”.

Jeżeli zawór nadmiarowy ustawiony jest w pozycji umożliwiającej pracę narzędzi  hydraulicznych, olej powraca do zbiornika, przepływając przez dołączone narzędzie ratownicze.

  1. Sprawdzić poziom oleju silnikowego i stan napełnienia zbiornika paliwa.
  2. Podłączyć sprzęt ratunkowy.
  3. Uruchomić silnik.

Przed uruchomieniem należy zwrócić uwagę na to, czy pompa hydrauliczna i węże są pozbawione ciśnienia, ponieważ silnik spalinowy startuje z trudem. Silnik prądu stałego może być uruchamiany przy obciążeniu ciśnieniowym.

Celem uruchomienia silnika spalinowego należy:

  • przestawić przełącznik silnika w pozycję” ssanie”.
  • pociągnąć lekko kilka razy za linkę rozruchową (lub wcisnąć kilka razy przycisk rozrusznika).
  • pociągnąć linką aż poczuje się opór, pozwolić by się wycofała i następnie energicznie pociągnąć. Powtórzyć jeżeli silnik nie startuje.
  • wyłączyć ssanie po około 30 sek. gdy silnik jest już rozgrzany.
  1. Ustawić dźwignię zaworu nadmiarowego w pozycji praca.

Przyłączanie i rozłączanie narzędzi powinno odbywać się w następującej kolejności:

  • upewnić się czy układ nie jest pod ciśnieniem (zawór przelewowy ustawiony w pozycji neutralnej „mały obieg”).
  • zdjąć nasadki przeciwpyłowe.

Przez szybkozłączki do oleju hydraulicznego mogą przedostać się zanieczyszczenia – kurz, piasek, który w konsekwencji może rozszczelnić precyzyjnie wykonane uszczelnienia szybkozłączek i powodować szybsze zużycie pompy hydraulicznej. W celu zminimalizowania ryzyka zabrudzenia, szybkozłączki zaopatrzono w kapturki z tworzywa sztucznego lub aluminiowe, które należy zakładać bezpośrednio po rozłączeniu przewodów.

  • przyłączyć łączniki narzędzi do pompy.

Pompa jest wyposażona w szybkozłącza „żeńskie i męskie”, tak więc zamiana węża ciśnieniowego z powrotnym przy przyłączaniu urządzeń jest niemożliwa.

W przypadku pomp przystosowanych do jednoczesnej pracy dwóch narzędzi, gdy przyłączone jest tylko jedno urządzenie, to drugi wąż ciśnieniowy musi być zwarty z drugim wężem powrotnym. Dzięki temu w przypadku niezamierzonego wysterowania zaworu, który nie odpowiada przyłączonemu urządzeniu, zapobiega się powstaniu ciśnienia w wężu.

Przy przyłączaniu urządzeń ratowniczych, zamiana elastycznych przewodów ciśnieniowych i powrotnych również jest niemożliwa z powodu jak już wcześniej wspomniałem zróżnicowanych szybkozłączek i odmiennych kolorów.

Wyłączanie pomp hydraulicznych powinno się odbywać wyłącznie wtedy, gdy zawór nadmiarowy ustawiony jest w pozycji neutralnej, a więc na „małym obiegu”.

Konserwacja

W zależności od rodzaju napędu pompy, konserwacje jednostek napędowych będą się różniły. Bez zmian natomiast pozostaje konserwacja pompy.

Firmy zajmujące się produkcją sprzętu zalecają sprawdzenie urządzeń raz w roku przez przeszkolonego technika posiadającego odpowiednią wiedzę i narzędzia. Jednak przy intensywnym wykorzystywaniu sprzętu i/lub jego pracy w wysokich temperaturach, zaleca się stosowanie krótszych okresów między przeglądami. Firma HOLMATRO podaje w swych instrukcjach przelicznik godzin pracy do czasookresu dla pomp nie posiadających liczników godzin pracy.

25   godzin      – 3  miesiące

50   godzin      – 6  miesięcy

100   godzin    – 12  miesięcy

Przeglądy takie mogą wykonywać pracownicy,  którzy przeszli odpowiednie przeszkolenie w tym celu.

Czynności podstawowe.

  • sprawdzić stan oleju hydraulicznego, a w razie potrzeby uzupełnić.
  • oczyścić złącza i nałożyć kapturki ochronne.
  • kontrolować szczelność pompy i przyłączy.

Olej hydrauliczny wymieniać przynajmniej raz w roku. Po wymianie należy układ odpowietrzyć.

W pompach napędzanych silnikami spalinowymi należy:

  • sprawdzić stan oleju silnikowego.
  • uzupełnić ubytki paliwa.
  • okresowo czyścić filtr powietrza.
  • sprawdzać a w razie potrzeby usuwać nagar ze świec zapłonowych.

W pompach napędzanych silnikami elektrycznymi w celu bezpiecznej eksploatacji należy stosować przepisy dotyczące przeglądu urządzenia tak jak dla punktu odbiorczego energii elektrycznej w skład których wchodzą.

  1. Badanie rezystancji uzwojenia (nie rzadziej niż co dwa lata).
  2. Badanie skuteczności działania ochrony przeciw porażeniowej

(zerowanie – nie rzadziej niż co dwa lata).

Zalecenia dotyczące bezpieczeństwa

Przed przystąpieniem do obsługi należy:

  • zapoznać się dokładnie z instrukcją obsługi
  • stosować ubrania robocze lub ochronne: hełm ochronny z wizjerem lub okularami ochronnymi, rękawice ochronne, kombinezon ochronny
  • osoby postronne utrzymywać w bezpiecznej odległości
  • w przypadku wycieku oleju natychmiast przerwać pracę
  • nastawione na stałe ciśnienie maksymalne nie może być w żadnym wypadku zmieniane
  • dozwolone jest stosowanie tylko oryginalnych części zamiennych
  • przestrzegać terminów przeglądów o konserwacji

W specyfikacji ETSI/3GPP opisującej sieć IMS zdefiniowano blok funkcjonalny odpowiedzialny za przetwarzanie strumieni multimedialnych [39]. Został on nazwany Multimedia Resource Function (MRF). Zakres jego funkcji określony przez ETSI jest podzbiorem opisanego w rozdziale 5.1 zbioru funkcji serwera mediów.

Istotny zatem jest fakt, iż serwer mediów może pełnić funkcję bloku MRF w architekturze IMS.

Specyfikacja IMS wyróżnia dwa elementy funkcjonalne w ramach MRF: ([39])

  • Multimedia Resource Function Controller (MRFC)
  • Multimedia Resource Function Processor (MRFP)

Do funkcji MRFC wg ETSI zalicza się:

  • Sterowanie zasobami przetwarzania strumieni multimedialnych w ramach MRFP.
  • Interpretowanie informacji przychodzących z modułów AS oraz S-CSCF i na ich podstawie odpowiednie sterowanie modułem MRFP.
  • Generowanie rekordów rozliczeniowych CDR (funkcjonalność ta nie jest rozpatrywana w ramach niniejszej pracy)

Należy dodać, że w ramach sieci NGN opartej na architekturze IMS, zdefiniowanej w specyfikacji TISPAN Release 1, MRFC ma za zadanie pełnić rolę tzw. serwera zapowiedzi (announcement server), na potrzeby systemu PES – PSTN/ISDN Emulation Subsystem[52].

MRFP wg ETSI odpowiada za:

  • Sterowanie przenoszeniem danych multimedialnych w ramach interfejsu Mb
  • Miksowanie przychodzących strumieni multimedialnych (np. dla wielu użytkowników)
  • Przesyłanie strumieni medialnych (np. jako zapowiedzi multimedialne)
  • Przetwarzanie strumieni medialnych (np. transkodowanie audio, analiza strumienia etc.)

Jak widać, MRFP jest to „zaawansowany procesor sygnałowy”, podczas gdy MRFC steruje pracą MRFP wg informacji przesyłanych z innych modułów sieciowych.

Należy podkreślić, iż mimo, że określenie MS oznacza blok funkcjonalny w ramach szeroko pojętej architektury V OIP, a MRF to blok w ramach architektury IMS, oba te terminy stosowane są często zamiennie. Nie jest to błędem, ponieważ w praktyce dla rzeczywistych implementacji MS i MRF obecnych na rynku zestaw funkcji jest zwykle taki sam. W zasadzie wszyscy producenci serwerów mediów projektują je pod kątem ich ewentualnego wdrożenia do sieci IMS jako blok MRF[1]. To stwierdzenie odnosi się do produktów m.in. takich firm jak Radisys, Cantata, Alcatel-Lucent, Audiocodes, ZTE, IP-Unity. Również operatorzy telekomunikacyjni tworząc wymagania na moduł MRF w ramach tworzenia architektury IMS, używają obu terminów zamiennie.

W przypadku, gdy w sieci IMS rola MRF pełniona jest przez moduł MS, nie ma przeciwwskazań, aby poprzez mechanizmy zdefiniowane przez ETSI wykorzystywać te funkcje MS, które wykraczają poza zdefiniowany w standaryzacji zbiór funkcji MRF.

W rozwiązaniach producenckich rośnie ilość funkcji MS „dodatkowych” względem MRF.

W ramach niniejszej pracy terminy MS i MRF będą poniżej stosowane zamiennie, chyba, że zaistnieje konieczność ich rozróżnienia.


[1] Jeśli aktualna wersja MS danego producenta nie wspiera wszystkich funkcji i interfejsów zdefiniowanych dla MRF, są one zwykle umieszczane w roadmapie dla kolejnych wersji tego produktu.

Pompy te stworzono przede wszystkim z myślą o wykorzystaniu w obszarach zagrożonych wybuchem dzięki całkowicie zamkniętemu silnikowi pneumatycznemu. Posiadają zwartą i lekką budowę. W czasie pracy bezpieczne ciśnienie oleju jest utrzymywane, gdy spada ciśnienie powietrza. Wyposażone są w tłumiki powietrzne powodujące bardzo cichą pracę.

Regulacja ciśnienia oleju odbywa się przez regulację maksymalnego ciśnienia powietrza. Tak więc niższe ciśnienie powietrza oznacza niższe ciśnienie oleju.

Pompy te posiadają ustawiony ciśnieniowy zawór nadmiarowy ustawiony przez producenta na odpowiednie ciśnienie robocze. Praca rozpoczyna się pod obciążeniem, a zatrzymanie pompy nastąpi po osiągnięciu zadanego ciśnienia, Dodatkowo pompy te mogą być zasilane butlami ze sprężonym powietrzem jeżeli butle te posiadają reduktory ciśnienia.

Rys.10  Pompa hydrauliczna o napędzie pneumatycznym.

„Zaawansowana technologia staje się nie tylko rozbudowaniem i wzmocnieniem poszczególnych części naszego ciała (ich funkcji), lecz także przedłużeniem naszego systemu nerwowego” [McLuhan]

W obecnych czasach, choć nie mamy jeszcze prawdziwej rzeczywistości wirtualnej, mamy już przedsmak sztuki, która będzie tam istniała – V(irtual)R(eality)-art’u (VR-art). Obecny net-art, czyli sztuka sieci internet, nie jest namiastką VR-artu, a po prostu sztuką żywiącą się specyficznym dla siebie medium. Oprócz net-art’u występuje też wiele zjawisk w sztuce, które dotykają zagadnienia wirtualności w różnych aspektach. Przyjrzyjmy się niektórym z nich.

Interfejserzy kontra „trumna i gablota”

„Trumna i gablota” to określenie oznaczające tradycyjne muzeum sztuki. Adorno stwierdza też, że „muzeum” i „mauzoleum” łączy coś więcej niż rdzeń fonetyczny [za: Popczyk, Zaidler-Janiszewska 1996b]. Jednak na przełomie lat 80. i 90. XX wieku, nastąpiły dwa ważne wydarzenia. Zanim opracowano zasady WWW (zobacz: Kalendarium historii internetu i fotografii cyfrowej), w Centre Georges Pompidou odbyła się w 1984 roku wystawa zorganizowana przez Jean-Franęois Lyotard’a – „Les Immateriaux”. Wystawa i towarzysząca jej publikacja dotyczyła fenomenu „nieustannego i pogłębiającego się dematerializowania rzeczywistości za sprawą, przede wszystkim, rozwoju nowych technologii. Zgromadzone w muzeum eksponaty miały stanowić tego procesu swoistą egezmplifikację, jednocześnie sama idea Lyotarda wyprzedzała zjawiska, które z całą siłą miały dopiero się pojawić” [Zawojski 2005]. Kolejnym przełomowym wydarzeniem stało się „The Virtual Museum”[1] Jeffreya Shaw’a (1991), zaprezentowana w Landesmuseum w Linzu, umożliwiająca widzom zwiedzanie wirtualnych sal tegoż muzeum.

„Kwestie dematerializacji, immaterializacji, wirtualności stały się – nie tylko dla artystów wykorzystujących media digitalne, z natury rzeczy podejmujących zagadnienia nowej ontologii sztuki, która dekonstruuje tradycyjną ontologię przedmiotu, artefaktu – fundamentalnym wyzwaniem współczesności.” [Zawojski 2005]

Pod koniec lat 90., wśród artystów stykających się z nowymi mediami a w szczególności internetem, pojawiła się idea „muzeum bez ścian”. Głównym propagatorem tej idei był Steve Dietz. Idea ta początkowo wywodziła się z pomysłu na wykorzystanie sieci do realizacji hasła „acces for all”, czyli demokratyzacji procesu tworzenia i eksponowania sztuki. Dietz jednak chciał stworzyć „interfejs”, który będzie można wykorzystać do celów edukacyjnych. Dzięki Walker Art Center stworzył Integra ted Arts Information Acces (IAIA) – projekt którego celem było przekonanie „screenagerów”[2], że sieć to nie tylko gry i porno. W 1998 roku, Dietz tworzy dzięki Minneapolis Institute of Arts, wirtualne muzeum – ArtsConnectEd[3], będące jednocześnie platformą edukacyjną i komunikacyj­ną. To był właśnie „interfejs”!

W wielu późniejszych pracach i tekstach Dietza, odnajdujemy twierdzenie, że to właśnie „interfejserzy” wyznaczają nowe kierunki sztuki, przeciwstawiając się „trumnie i gablocie” jak określił tradycyjne muzea Thierry de Duve [za: Zawojski 2005]. W swoim tekście „Beyond interface…” Dietz cytuje Johnsona:

„Rzemieślnicy kultury interfejsu – stali się połączeniem artysty i inżyniera – interfejserzy, cyberpunki, webmasterzy – powołani do wielkiego zadania reprezentowania naszych cyfrowych maszyn, nadawania sensu informacji w jej podstawowej formie”. [Dietz]

Muzeum bez ścian, wirtualne dzieła sztuki, dzieła sztuki wirtualnej, wirtualna fotografia…

Kim oni są?

„Kim są ci ludzie skoro ich nie ma? Na kogo, a właściwie na co patrzę? Cały projekt to swego rodzaju gra pozorów: wierzymy na słowo artystce, że portrety nie są ‘prawdziwe’, choć patrząc na nie równie dobrze moglibyśmy przyjąć, że jest odwrotnie.”[4] Więc kim oni są? Czy są wirtualni, czy są po prostu sztuczni? Odpowiedź na to pytanie nie jest prosta – Grzeszykowska po prostu stworzyła swoich modeli od początku, bez potrzeby wikłania się w układy z real’u. Stworzyła cyborgi, tylko wizualne, ale zawsze cyborgi.

Wiktoria Cukt

Pewnego dnia Wiktoria Cukt wkroczyła w życie wszystkich Polaków. Jednych ciesząc, drugich bawiąc a trzecich przerażając… Po raz pierwszy, w przestrzeni polskiej, skostniałej polityki pojawił się promyk nadziei…

„Po uzyskaniu tytułu Prezydenta RP zostaną ogłoszone przeze mnie nowe wybory do softów Sejm 0.1 Senat 0.2 Przed wyborami do wszystkich domów w Polsce dotrze kabel z bardzo szybkim i pewnym łączem internetowym. Wszystkie pieniądze które dotąd społeczeń­stwo wydawało na utrzymanie całej rzeszy polityków pójdą na ten właśnie cel. Wszyscy będą mogli w bezpośredni sposób decydować o poszczególnych ustawach.” [c.u.k.t.]

Kandydatka na urząd Prezydenta – Wiktoria Cukt została powołana do wirtualnego życia przez „Centralny Urząd Kultury Technicznej”[5]. Choć nikt się tego nie spodziewał, oddźwięk społeczny był całkiem niezły, szczególnie w środowiskach z dostępem do sieci. Jednak oczywiste jest to, że popularność wirtualnej kandydatki na prezydenta, nie wynikała z ogrom­nej potrzeby przeniesienia władzy do cyberprzestrzeni i z demokraty­zowania jej dzięki ultra-demokratycznemu internetowi, chodziło o małość, słabość i żałosność władzy w real’u. Wiktoria mogła by być dobrą panią Prezydent, gdyby oczywiście miała możliwość działania. Wirtualna kandydatka z 2001 roku, była niestety tylko wyrazem działań artystycznych – nie istniała żadna realna możliwość funkcjonowania Wiktorii Cukt na stanowisku Prezydenta RP, gdyż była ona tylko „wizualizacją” – „konstruktem wizualnym”.

Net-art

Sztuka sieci, bo tym właśnie jest net-art, jest dziedziną sztuki „żywiącą się” swoim medium, czyli internetem. Są to internetowe „projekty artystyczne, dla których sieć jest zarówno wystarczającym jak i koniecznym warunkiem do zaistnienia” (definicja stworzona przez Steve Dietza).[6] Wiele wspólnych cech znajdziemy pomiędzy net-art’em a sztuką video, jednak sztuka sieci, bardziej zajmuje się swoim immanentnym medium w sensie merytorycznym niż technicznym, choć ten drugi aspekt również jest ważny. W naszych rozważaniach net-art jest dlatego ważny, gdyż jest „preludium” do sztuki w rzeczywistości wirtualnej.

Internet daje ogromne (właściwie dotąd niespotykane) możliwości artystom, a także kuratorom i odbiorcom sztuki. Te możliwości to: brak barier geograficznych, promocja i marketing artystyczny, tania i łatwa komunikacja pomiędzy wszystkimi uczestnikami „gry” – twórcami, kuratorami wystaw (sieciowymi i tymi z real’u). Co prawda stykamy się tu z postmodernistycznym problemem tzw. „końca sztuki” – wszystko może być sztuką, lub nie ma już sztuki. Jednak takie są konsekwencje przenoszenia aktywności społecznej (w tym artystycznej) do internetu – najbardziej demokratycznego medium jakie do tej pory powstało.

Czy VR będzie jeszcze bardziej demokratyczna? Tego nie wiemy, w znacznej mierze zależy to od inżynierów, a właściwie ich dyrektorów (i prezesów finansujących je firm). Niewątpliwie jednak w XXI wieku, VR to „technologia definiująca” – podobnie jak camera obscura dostarczała dawniej modelu ludzkiego widzenia [Bolter]. Najbardziej spektakularną i definiującą cechą net-arfu i w przyszłości VR-art’u jest interaktywność[7]. Jak pisze Kluszczyński: „Interaktywność jest nową jakością całościowo pojętej kultury i nową jakością sztuki” [Kluszczyński, w: Zeidler- Janiszewska 1996a].

Co jednak ze sztuką w wirtualnej rzeczywistości? Czym będzie VR-art? Rozpatrujemy oczywiście VR zrealizowaną, z pełnym „zanurze­niem”. Czy będzie w niej można tworzyć sztukę, skoro będzie ona „sztuczna”, a net-art zniknie, gdyż wszystko będzie w „sieci”, podobnie jak „sztuka interaktywna” [Kluszczyński 2002], gdyż wszystko będzie w większym lub mniejszym stopniu interaktywne? O ile inżynierowie i dyrektorzy nam pozwolą, będzie można uprawiać następujące rodzaje działalności artystycznej:

  • malarstwo wirtualne – tworzone w VR przez autora „ręcznie” (np. przy pomocy „wirtualnego pędzla”);
  • grafika wirtualna – tworzone w VR przez autora przy pomocy narzędzi programistycznych, np. grafika fraktalowa;
  • fotografia wirtualna – obrazy rejestrowane przez autora, będące odzwierciedleniem tego co „widzi” autor będący w totalnej immersji (por. „zrzuty ekranowe”, „screen-shots”) lub innych analogicznych do „realu” zjawisk.

[1] zob.: http://www.jeffrey-shaw.net/html main/show work.php3?record id=88

(20.06.2006)

[2]  „screenagers” – dzieci wychowane w rzeczywistości zmediatyzowanej przez komputery i telewizję [Rushkoff, za: Zawojski 2005,

por. http://en.wikipedia.org/wiki/Screenager (20.06.2006)]

[3]  http://www.artsconnected.org/ (20.06.2006)

[4]  o wystawie Anety Grzeszykowskiej „Portrety” [za:] Raster [on-line] http://raster.art.pl/galeria/artysci/grzeszsmaga/aneta portrety.htm (20.06.2006)

[5]  czyli: Piotra Wyrzykowskiego, Rafała Ewertowskiego, Jacka Niegodę, Mikołaja Jurkowskiego, Macieja Sienkiewicza i Andrzeja Kozdrowskiego. [więcej: c.u.k.t.]

[6]  zob. http://pl.wikipedia.org/wiki/Sztuka Internetu (8.08.2006), zobacz też: http://en.wikipedia.org/wiki/Internet art (10.08.2006), czytaj też więcej o net-arcie i blogach [w:] Czarnowska

[7]  „Interaktywność – bezpośrednia wymiana informacji między komputerem (programem, stroną WWW) a człowiekiem.”

[za: webstyle.pl/cms.php/en/netopedia/emarketing/interaktywno

(9.08.2006)]; zob. też: en.wikipedia.org/wiki/Interactive (10.08.2006)

DPI – (ang. „dots per inch”) – w tłumaczeniu na język polski „punktów na cal”

1 cal = 25,4 mm = 2,54 cm

Tyle tytułem wstępu.

Zdawałoby się proste i nie pozostawiające marginesu na wątpliwości, a jednak…

Zacznijmy od próby określenia elementu zwanego „punkt”.

Dla aparatu cyfrowego, skanera, ekranu monitora – punkt nazywamy pikselem. Jest to najmniejszy element jaki te urządzenia są w stanie odwzorować. Piksel opisany jest jeszcze dodatkowymi informacjami takimi jak jasność czy barwa. W przypadku wymienionych urządzeń piksel może reprezentować jeden z 256 odcieni szarości lub jedną z ponad 16 milionów barw. I wszystko byłoby dalej proste gdyby nie drukarki atramentowe. Drukarka taka, aby wydrukować jeden piksel dla – przykładu szary – robi to za pomocą odpowiednio umieszczonych czarnych punkcików na białym tle papieru. Zazwyczaj czyni to w tablicy o wymiarach 16×16 punktów. Wynika z prostego obliczenia (16×16), że drukarka drukująca piksel o barwie czarnej wydrukuje 256 „swoich” punktów. Wróćmy zatem do głównego tematu. Jednostka DPI mówi, ile punktów można „upchnąć” w linii o długości 1 cala. Dla przykładu rozdzielczość 300 DPI oznacza, że w linii o długości 1 cala (2,54 cm) mieści się 300 punktów. Tyle, że wspomniana drukarka atramentowa postawi faktycznie w jednocalowej linii 300×16=4800 punktów.

Podany przeze mnie przykład 300 DPI nie jest przypadkowy. Otóż chcąc otrzymać dobrą jakościowo odbitkę fotograficzną z aparatu cyfrowego trzeba zapewnić taką właśnie rozdzielczość. Poniższym przykładem spróbuję to zilustrować.

Chcemy wykonać w fotolabie odbitki fotograficzne o wymiarach 10 cm x 15 cm. Jak zatem ustawić aparat cyfrowy? Policzmy…
Dla uproszczenia przyjmujemy, że cal ma dokładnie 2,5 cm.

Przeliczamy wymiar fotografii z cm na cale:

  • 10cm / 2,5 = 4 cale
  • 15cm / 2,5 – 6 cali

Do osiągnięcia dobrej jakości potrzebujemy 300 punktów na jeden cal czyli:

  • 4 cale x 300 = 1200 punktów
  • 6 cali x 300 = 1800 punktów

Aparat cyfrowy powinien zapewnić zatem rozdzielczość 1800×1200 punktów. Jeśli nasz aparat cyfrowy nie posiada takiej, albo podobnej rozdzielczości musimy przygotować obraz sami w programie graficznym, lub zdać się na pracę fotolabu (czego bardzo nie polecam). Maszyna w fotolabie skalując obraz do 300 DPI (czyli do rozdzielczości policzonej wyżej) nie robi nic poza tym skalowaniem. Skalowanie ma to do siebie, że przeważnie „gubi” ostrość. Efekt może być bardzo różny.

Pozostaje do wyjaśnienia jeszcze jeden problem. Kupując atramentową drukarkę fotograficzną czytamy w parametrach technicznych: rozdzielczość 4800 DPI. Zastanawiamy się wtedy – po co? Przeciez zupełnie wystarczy 300. Z całego zamieszania najlepiej skorzystali marketingowcy 🙂 Przypominam, że drukarka, aby wydrukować 1 punkt drukuje raster 16×16 (256) „swoich” punkcików. Zatem wykonując obliczenie 4800 / 16 = 300 sprawa staje się jasna. To marketingowe 4800 DPI odpowiada 300 DPI u maszyny fotograficznej.

Na zakończenie kilka słów o tzw. informacji EXIF. Pliki graficzne (np. jpeg) pochodzące z aparatów cyfrowych zawierają często informacje dotyczące różnych parametrów obrazu (paleta kolorów, rozdzielczość, parametry ekspozycji, model aparatu, itp). Na tej liście znajduje się tez parametr DPI. Zawsze czytając EXIF pliku graficznego zastanawiam się – po co?. Co mi daje określenie DPI bez kontekstu wymiarów fizycznych odbitki foto? Otóż dokładnie… NIC.

Często jestem świadkiem rozmów osób oglądających swoje cyfrowe zdjęcia licytujących się „czyj aparat robi lepsze DPI” :). DPI można rozpatrywać w odniesieniu do odbitki fotograficznej, wydruku, czy wymiaru wyświetlanego obrazu na monitorze komputera, ale nigdy samo. Pliki z różnych aparatów zawierają różne „ciekawe” informacje o DPI. Dla przykładu Mój Canon EOS 300D zawsze podaje 180 DPI, Olympusy 144 DPI… Hmmm… Z przykrością stwierdzam (może tu rozczaruję kilka osób), że ta informacja w pliku EXIF jest całkowicie bezużyteczna. Co byśmy nie robili, to nasz monitor i tak jest w stanie wyświetlić obraz w rozdzielczości 72-78 DPI (zależy od modelu).

Kiedyś zaniosłem do jednego z fotolabów pliki do wykonania odbitek. Laborant zerknął na EXIF i powiedział: „marnie wyjdzie… Tylko 180 DPI). No cóż… Tym „optymistycznym” akcentem kończę artykuł zdając sobie sprawę, że na pewno nie wyczerpałem tematu, a Panu laborantowi gratuluję dobrego samopoczucia 🙂 W końcu mógł nie wiedzieć nawet co to jest EXIF…

Zanim doszło do sformułowania terminu sztuczna inteligencja, zdarzyło się kilka istotnych wydarzeń. Modelowanie rzeczywistości77, bo tak należy grupowo nazwać tę dziedzinę, zainteresowanie którą doprowadziło do badań nad SI. Owo modelowanie to wybór tych elementów rzeczywistości, które przyjmiemy jako istotne dla danego zagadnienia, oraz określenie reguł działania które nimi rządzą [Białyniccy-Birula]. To dociekli­wość pewnych „wścibskich” naukowców doprowadziła do opisania kilku bardzo istotnych modeli, dzięki którym rozwiązano wiele problemów naukowych, szczególnie tych istotnych dla cybernetyki.

Jako najbardziej podstawowy przykład, przyjrzyjmy się „Grze w Życie”. John Horton Conway, stworzył najprostszy model procesu narodzin, ewolucji i śmierci. Oczywiście model ten dotyczy binarnej kolonii, zwanej umownie „kolonią bakterii”. „Gra w Życie” pozwala na określanie warunków która bakteria ma przeżyć, która umrzeć, a która uodpornić się na wirusa – w praktyce systemy tego typu są stosowane w wielu dziedzinach.

Kolejnym przykładem są osławione fraktale, o których się mówi dużo, każdy wie jak wyglądają, lecz mało kto wie czym one właściwie są… Fraktale, więc są to złożone figury samopodobne, tzn. takie które można podzielić na części, które są podobne do całości. Najbardziej znane z podstawowych fraktali to „krzywa Kocha”[1] [2], „trójkąt Sierpińskiego”[3], „żuk Mandelbrota”[4].

Obecnie fraktale są wykorzystywane m.in. właśnie do generowania grafiki fotopodobnej, do analizy pogody, analizy geologicznej (tzw. „krzywa wybrzeża” jest fraktalem) i wielu innych zastosowań.

Kolejnym, najistotniejszym chyba krokiem zbliżającym badaczy do SI, stało się zainteresowanie lingwistyką komputerową.

„Jak często może człowiek, po wymieszaniu liter w worku, wysypać

je na ziemię tak, by ułożyły się one w poemat?”

John Tillotson (XVII w.) [za: Białyniccy-Birula]

Lingwistyka komputerowa, zajmuje się m.in. tworzeniem programów komputerowych do przetwarzania języka naturalnego[5]. Badacze sztucznej inteligencji już dawno dopatrywali się właściwej drogi właśnie poprzez język naturalny. Właściwe zrozumienie, dlaczego człowiek rozumie to co mówią inni, choć nie jest to język tak „sztywny” jak np. zwykłe języki programowania, gdzie użytek słów i składni jest ekstremalnie ustalony i nie pozostawia prawie żadnego pola do improwizacji. Interesującym przykładem eksplorowania lingwistyki jest też praca z pogranicza sztuki i lingwistyki – „Manifest – Istota Przekazu” Arka Blomki. [zobacz: Blomka]

Kolejnym etapem w dochodzeniu do sztucznej inteligencji są sieci neuronowe, a właściwie „sztuczne sieci neuronowe”. Jak podaje Wikipedia: „Sieć neuronowa (sztuczna sieć neuronowa) to ogólna nazwa struktur matematycznych i ich programowych lub sprzętowych modeli, realizujących obliczenia lub przetwarzanie sygnałów poprzez rzędy elementów wykonujących pewną podstawową operację na swoim wejściu, zwanych neuronami. Oryginalną inspiracją takiej struktury była budowa naturalnych układów nerwowych, w szczególności mózgu.”[6] W skrócie można powiedzieć, że sieć neuronowa to sztuczny system symulujący mózg – dzięki algorytmom, próbujący radzić sobie z zadaniami takimi jak kojarzenie i rozpoznawanie, czyli takimi, z którymi „zwykłe” (nawet super­szybkie) komputery nie dadzą sobie rady.


[1]  Oczywiście sprawy związane z rzeczywistością wirtualną mają przebieg zupełnie odwrotny – najpierw tworzymy model projektowanej VR, następnie określamy reguły w nim panujące i dopiero wtedy możemy poświęcić się obserwacji.

[2]  Helge von Koch (1870-1924) – szwedzki matematyk, twórca jednego z najbardziej znanych i zarazem jednego z pierwszych fraktali – krzywej Kocha (opisana w „Une methode geometrique elementaire pour letude de certaines questions de la theorie des courbes plane” w 1906 roku). Napisał wiele prac na temat teorii liczb, zajmował się hipotezą Riemanna. [za: Wikipedia (pl), zob.: krzywa Kocha [on-line] pl.wikipedia.org/wiki/Krzywa Kocha (26.06.2006)]

[3]  Wacław Sierpiński (1882-1969) – polski matematyk [zob.: trójkąt Sierpińskiego [on-line] http://pl.wikipedia.org/wiki/Tr%C3%B3jk%C4%85t Sierpi%C5%84skiego (26.06.2006)]

[4]  Benoit B. Mandelbrot (ur. 1924, w Warszawie) – francuski matematyk, pochodzenia polskiego [za: Wikipedia (pl), zob.: zbiór Mandelbrota [on-line] pl.wikipedia.org/wiki/Zbi%C3%B3r Mandelbrota (26.06.2006)]

[5]  za: pl.wikipedia.org/wiki/Lingwistyka komputerowa (6.06.2006), zobacz też: nlp.ipipan.waw.pl/CLIP/ (6.08.2006)

[6]  za: pl.wikipedia.org/wiki/Sie%C4%87 neuronowa (10.08.2006), zobacz też: neuron.kylos.pl/ (10.08.2006)

Niniejszy rozdział przytacza definicję usługi multimedialnej oraz zawiera omówienie tej definicji w kontekście tematyki pracy. Mimo, iż definiowane pojęcie jest zrozumiałe intuicyjnie, ścisłe definicja konieczna była dla klarowności wywodu.

Poniższe definicje należy oczywiście rozpatrywać w kontekście usługowym sieci VOIP.

  • Usługa multimedialna

Usługa multimedialna w znaczeniu telekomunikacyjnym to każda usługa, która oparta jest na przetwarzaniu strumieni cyfrowych audio/video i nie jest podstawową usługą telefonii.

Wg powyższej definicji usługa multimedialna stanowi zatem poszerzenie tradycyjnej usługi telefonii, rozumianej jako usługa przenoszenia głosu w połączeniach dwustronnych, o dodatkowe funkcjonalności oparte na przetwarzaniu dźwięku i obrazu.

Dla bardziej ścisłej definicji można przyjąć, iż:

Usługa multimedialna w znaczeniu telekomunikacyjnym to każda usługa, której świadczenie obejmuje wykorzystanie jednej lub kilku z poniższych funkcjonalności:

  • Przesyłanie strumieni danych cyfrowych audio/video[1] [2] [3] do terminali użytkowników:

o Odtwarzanie komunikatów głosowych – np. zsyntetyzowanych za pomocą łączenia kilku nagranych dźwięków lub z wykorzystaniem silników syntezy mowy (TTS – Text To Speech), lub zawartych w pliku audio

o Odtwarzanie plików audio/video (zapisanych w różnych formatach, np wav , mov , mpg etc)

o Odtwarzanie sygnałów sygnalizacji abonenckiej – tone playing (sygnał zgłoszenia centrali, sygnał zajętości, sygnał wybierania etc).

  • Rejestrowanie strumieni audio/video (do różnych formatów plików – wav, mov, mpg etc)
  • Zarządzanie typem odbieranych/wysyłanych strumieni multimedialnych – odbieranie/wysyłanie w danej chwili tylko strumienia audio/video, obu typów strumieni, płynne przechodzenie pomiędzy trybami[4] [5] [6] [7]
  • Operacje na strumieniach audio/video:

o Miksowanie strumieni audio/video (połączenia wielostronne, konferencyjne)

o Zmiana głośności strumienia audio

o Transkodowanie pomiędzy strumieniami danych audio/video kodowanymi różnymi kodekami

  • W połączeniach dwustronnych
  • W konferencjach (przy miksowaniu)
  • Przy nagrywaniu / odtwarzaniu (np. gdy dane w pliku są kodowane innym kodekiem niż wspierany przez terminal użytkownika)

o Funkcjonalność Text-To-Video (TTV), Text-Insertion-In-Video – dodawanie tekstu do strumienia video tak, aby widoczny był podczas odtwarzania

  • Funkcjonalność IVR
  • Funkcjonalność TTS / ASR
  • Pobieranie cyfr i symboli od abonenta (DTMF collection)

o W paśmie – Inband[8]

o Poza pasmem – Outband[9] [10] [11]

  • Połączenia konferencyjne (głosowe i video)
  • Proste (połączenie trójstronne, multiparty call)
  • Złożone – dla N uczestników

o Zaawansowana funkcjonalność konferencyjna i zarządzanie telekonferencjami (floor control)

  • Kopiowanie treści (Lawful Interception) – jest to funkcjonalność w ramach systemów telekomunikacyjnych, która pozwala na kopiowanie przesyłanych danych oraz podsłuchiwanie rozmów telefonicznych. Wymuszana zwykle przez regulacje prawne w danym państwie/organizacji. W kontekście multimediów oznacza kopiowanie strumieni multimedialnych na potrzeby późniejszego odtwarzania ich i śledzenia przebiegu oraz treści połączenia. Wyróżnia się europejską specyfikację architektury LI (wg ETSI) oraz amerykańską (CALEA[12])

Każdy z elementów powyższego zbioru można potraktować jako swego rodzaju blok funkcjonalny czy też obiekt klasy „funkcjonalność multimedialna”, wykorzystywany do budowy bardziej złożonych usług multimedialnych. Należy podkreślić, iż poszczególne bloki mogą zawierać szereg cechujących je „wewnętrznych” funkcjonalności. Przykładowo dla odtwarzania komunikatów audio można wyróżnić:

  • modyfikowanie komunikatów (zmiana treści, czasu trwania, głośności etc.)
  • dynamiczne generowanie komunikatów różnego typu (np. komunikowanie daty, godziny, kwoty pieniężnej, liczby, ciągu cyfr)
  • odtwarzanie komunikatów w różnych językach
  • odtwarzanie komunikatów zlokalizowanych w podanym miejscu w sieci (serwer HTPP, serwer FTP, serwer NFS)
  • rozpoczynanie odtwarzania ze wskazanym opóźnieniem, dołączanie do komunikatu nagranej przez abonenta sekwencji
  • odtwarzanie sekwencji komunikatów, powtarzanie ich i zapętlanie
  • wspieranie funkcjonalności SIP Early media[13]

Podobnie pobieranie cyfr i symboli poprzez DMTF obejmuje szereg opcji:

  • pobieranie pojedynczych cyfr lub sekwencji cyfr
  • definiowanie maksymalnego czasu oczekiwania na pierwszą wprowadzaną cyfrę
  • definiowanie maksymalnego interwału między dwoma podawanymi cyframi (Inter-digit timer)
  • definiowanie symboli specjalnych (np. „#”) celem oznaczania końca wprowadzanej sekwencji
  • blokowanie DTMF – tzw. DTMF clamping, czyli usuwanie tonów DTMF ze strumienia audio pochodzącego od terminala tak, aby np. nie były one nagrywane czy też słyszane podczas konferencji.

Szczegółowa analiza parametrów wszystkich wymienionych funkcjonalności multimedialnych nie jest przedmiotem pracy magisterskiej. Wyjątek stanowi usługa konferencji omówiona w następnym podrozdziale.

Należy podkreślić, iż powyższa definicja opisuje usługę multimedialną jako usługę świadczoną przez sieć telekomunikacyjną dla jej użytkowników końcowych. Taką perspektywę przyjęto bowiem w niniejszej pracy – ostatecznym odbiorcą usługi (i strumieni multimedialnych) jest tutaj terminal użytkownika. Można jednak rozpatrywać inne punkty widzenia, np.

  • usługa multimedialna jako sieciowa usługa transportowa – przesyłanie strumieni multimedialnych pomiędzy elementami sieci (po uprzednim zestawieniu sesji)
  • usługa multimedialna jako dostępna na pewnym elemencie sieci funkcjonalność przetwarzania sygnałów multimedialnych
  • usługa multimedialna jako funkcjonalność udostępniana przez pewien element sieci (np. serwer mediów).
    • Usługa konferencji

Usługa konferencji to najbardziej złożona funkcjonalnie usługa multimedialna w sieciach typu V OIP. Stanowi również usługę kluczową w kontekście opisu mechanizmów sterowania serwerem mediów. Opiera się na zestawieniu połączenia dla wielu terminali (multiparty connection) i przesyłaniu strumieni multimedialnych między nimi.

Obsługa takiego połączenia w sieci z sygnalizacją opartą na protokole SIP wykracza poza standardowe mechanizmy kontroli połączeń opisane w [1]. SIP wspiera tworzenie prostych połączeń wielopunktowych i podstawowe zarządzanie nimi takie jak dołączanie, odłączanie uczestników połączenia oraz negocjacja i renegocjacja parametrów sesji. Te mechanizmy nie są jednak wystarczające w przypadku bardziej zaawansowanych funkcjonalności konferencyjnych, obecnych zresztą już w sieciach z komutacją kanałów. Usługa konferencji może bowiem łączyć kilka różnych usług multimedialnych ze zbioru opisanego w rozdziale 2.1. W ramach przykładowej konferencji, oprócz miksowania strumieni wraz z transkodowaniem pomiędzy różnymi kodekami dla terminali uczestniczących w połączeniu, możliwa jest interakcja z uczestnikami poprzez wykorzystanie funkcji IVR oraz np. odtwarzanie zapowiedzi słownych dla wszystkich uczestników w sytuacji, gdy ktoś dołącza się do połączenia lub je opuszcza. Jest to jednak nadal relatywnie prosty przykład, gdyż rozbudowane systemy konferencyjne dostarczają znacznie bardziej bogaty zestaw funkcji.

W takiej sytuacji konieczne stało się zdefiniowanie modelu usługi konferencji wykorzystującej protokół SIP oraz stworzenie dodatkowych mechanizmów, za pomocą których będzie możliwa kontrola zaawansowanych funkcji konferencyjnych. W [14] opisano generyczny funkcjonalny model systemu konferencyjnego opartego na sygnalizacji SIP. W [31] (opracowanym przez grupę standaryzacyjną IETF XCON – Centralized Conferencing Working Group) zaproponowano oparty na języku XML informacyjny model danych dla konferencji scentralizowanych . Oba modele zostały zaadoptowane i uszczegółowione dla sieci IMS w [41],

Przyjmijmy zatem następujące definicje: [14]

Konferencja w kontekście sieci opartej na sygnalizacji SIP to instancja połączenia wielostronnego.

Uczestnik konferencji to aplikacja lub urządzenie fizyczne, które umożliwia przyłączenie użytkownika lub automatu do konferencji. Ma zaimplementowaną funkcjonalność agenta użytkownika SIP (SIP UA), może mieć również zaimplementowane specyficzne mechanizmy spoza protokołu SIP wspierające dodatkowe funkcjonalności.

Focus to agent użytkownika SIP (SIP UA), który jest adresowany poprzez adres URI konferencji. Jest to funkcjonalność logiczna w ramach konferencji. Focus identyfikuje konferencję. Utrzymuje wymianę sygnalizacji z każdym jej uczestnikiem. Jego rolą jest zapewnienie, że każdy uczestnik konferencji otrzyma strumień medialny. Focus zawiera również zaimplementowane polityki konferencji (conferencepolicies), czyli określające ją zbiory zasad.

URI konferencji – adres URI, zazwyczaj SIP URI, który wskazuje na focus konferencji.

Mikser22 – blok funkcjonalny, który otrzymuje strumienie medialne tego samego typu (audio lub video), następnie łączy je (miksuje) w pewien zdefiniowany sposób i dystrybuuje rezultat („zmiksowany” strumień) do każdego uczestnika konferencji. Przesyłane strumienie są transportowane z wykorzystaniem protokołu RTP23.

Często spotykanym terminem odnośnie usługi konferencyjnej jest także MCU – Multipoint Control Unit. Jest to blok pełniący funkcje miksera. W niektórych implementacjach powierza mu się także ustanawianie sesji SIP pomiędzy nim a uczestnikami konferencji. Obejmuje wówczas funkcje miksera i focusa, stając się centralnym punktem sterowania konferencją. Mimo występującej tutaj zbieżność funkcji MCU z funkcjami pełnionymi w architekturze V OIP przez sprzężone moduły serwera mediów i serwera aplikacyjnego, termin MCU nie pojawia się w dokumentach standaryzacyjnych dotyczących tej architektury. Z tego względu tak określany element sieciowy nie jest przedmiotem rozważań niniejszej pracy. [15] [16]

  • Typy konferencji

W zależności od sposobu organizacji wymiany wiadomości sygnalizacyjnych oraz strumieni danych audio/video, w sieciach telekomunikacyjnych opartych na sygnalizacji SIP możliwa jest realizacja różnego typu konferencji.[14], [53]

  • Konferencja fully distributed multiparty conference – w tym modelu konferencji każdy z uczestników utrzymuje wymianę wiadomości protokołu SIP oraz strumieni medialnych z każdym z pozostałych uczestników (połączenie punkt-punkt). Nie istnieje centralny punkt sterowania konferencją, sterowanie jest rozproszone pomiędzy uczestników. Każdy terminal uczestniczący w konferencji jest obciążony koniecznością miksowania strumieni medialnych od pozostałych uczestników, co przy większej ich liczbie może wyczerpać moc obliczeniową urządzenia. Ten model konferencyjny nie jest zatem skalowalny, nie sprawdza się dla dużych konferencji. Konferencję, w której terminale końcowe pełnią funkcjonalność miksera, określa się często jako endpoint mixing conference. [53]
  • Konferencja loosely coupled conference – konferencja, w której uczestnicy wymieniają wiadomości SIP w trybie transmisji unicast (czyli punkt-punkt), ale nie istnieje żadna „nadrzędna” relacja sygnalizacyjna pomiędzy wszystkimi uczestnikami, która świadczy o konferencji . Nie istnieje centralny punkt sterowania konferencją czy też serwer konferencyjny, a SIP nie jest wykorzystywany do tworzenia/niszczenia instancji konferencji.. Dane audio/video są transmitowane w trybie 25 Grupę multicast tworzą uczestnicy konferencji. Zaproszenie do konferencji odbywa się poprzez wysłanie wiadomości SIP INVITE z opisem sesji i adresem grupy multicast w polu SDP. Na poziomie sygnalizacji jest to zatem zwyczajny dialog SIP. Fakt, że dany terminal uczestniczy w konferencji, jest wnioskowany z informacji kontrolnej przekazywanej z danymi audio/video (np. z wykorzystaniem protokołu RTCP [8]).

Ze względu na zastosowanie techniki multicast do transmisji mediów konferencja loosely coupled conference jest też nazywana konferencją multicast. [53] [17] [18]

  • Konferencja tightly coupled conference – konferencja, w ramach której istnieje agent SIP (focus), który utrzymuje dialog SIP z każdym z uczestników konferencji. Agent ten steruje więc konferencją, stanowi centralny punkt kontroli. Może również zapewniać funkcję miksowania strumieni medialnych[19]. Jest adresowany poprzez adres URI konferencji. Protokołu SIP umożliwia jedynie przyłączenie/odłączenie terminala do/od takiego typu konferencji. Bardziej wyrafinowane funkcje muszą zostać zrealizowane w oparciu o dodatkowe mechanizmy.[14]

W sieci typu V OIP możliwe jest zrealizowanie każdego z powyższych typów konferencji. Jednakże rozważania zawarte w niniejszej pracy dotyczą jedynie konferencji typu tight coupled. Focusem dla takiej konferencji jest serwer mediów, którego pracą steruje serwer aplikacji.

Warto podkreślić, że blok focus może znaleźć zastosowanie w realizacji konferencji typu endpoint mixing oraz multicast (zakładając, że nawiązał relację sygnalizacyjną z uczestnikami konferencji). W ramach end point mixing conference, focus może dołączyć nowego uczestnika poprzez rozesłanie wiadomości re-INVITE do pozostałych uczestników, modyfikując dla nich opis sesji tak, że uwzględnia on dane nowego uczestnika. W efekcie nowy uczestnik otrzymuje strumienie medialne od pozostałych uczestników konferencji. W ramach multicast conference, focus może przesyłać uczestnikom konferencji wiadomość SIP z adresem grupy multicast w polu SDP. W efekcie strumienie medialne będą z terminali uczestników przesyłane na adres multicast.

  • Konferencja w trybie mieszanym

Oddzielną uwagę należy poświęcić tzw. konferencji w trybie mieszanym (mixed-mode conference). Jest to konferencja, w ramach której oprócz przesyłania strumieni audio/video, uczestnicy współdzielą także dane innego typu (prezentacja slajdów, grafika, współdzielenie tablicy do rysowania etc, plików, wysyłanie wiadomości tekstowych) lub całe aplikacje. Terminal SIP użytkownika musi posiadać tutaj dodatkową funkcjonalność umożliwiającą opisane współdzielenie. Jednakże w sytuacji, gdy użytkownik oddzielnie korzysta z terminala SIP UE i narzędzia do współdzielenia aplikacji ( np. Microsoft NetMeeting), mamy do czynienia z dwoma oddzielnymi usługami, a nie konferencją w trybie mieszanym.

Mechanizmy współdzielenia danych i aplikacji nie są ujęte w standaryzacji i są to raczej rozwiązania producenckie, oparte na technologiach internetowych. Wykraczają one poza protokół SIP i kontekst usługi konferencji zdefiniowanej w ramach architektury VOIP. Ponadto rozważane w niniejszej pracy sterowanie serwerem mediów nie obejmuje tych mechanizmów. Z tego względu konferencje typu mieszanego nie będą tutaj przedmiotem dalszych rozważań.

  • Miksowanie strumieni video w konferencji audiowizualnej.

Miksowanie strumieni video w ramach konferencji/połączenia wielostronnego może odbywać się w 3 trybach:

  • VAS – Voice Activated Switching – w zmiksowanym sygnale video wysyłanym do uczestników połączenia w danej chwili widoczny jest ten użytkownik, który aktualnie zabiera głos. Jeśli głos zabierze inny użytkownik – obraz video zostanie przełączony na niego. Przełączenie na podstawie detekcji głosu.
  • Continous Presence – wszyscy uczestnicy połączenia konferencyjnego są widoczni w zmiksowanym sygnale video. Ekran dzielony jest na ilość pół odpowiadającą ilości użytkowników, w każdym polu widoczny jest jeden użytkownik.
  • lecture mode – tryb wykładowcy – w strumieniu video wyświetlana jest tylko jedna osoba, tzw. wykładowca.
    • Zbiór zaawansowanych funkcji konferencyjnych

W kontekście usługi konferencji można powiedzieć, iż podstawowe funkcjonalności to rozpoczynanie lub kończenie konferencji, miksowanie strumieni oraz dołączanie/odłączanie uczestników. Wszystkie pozostałe funkcje należy traktować jako zaawansowane.

Organizacje standaryzacyjne nie zdefiniowały jednoznacznie zbioru zaawansowanych funkcji konferencyjnych, mimo iż istnieje szereg dokumentów opisujących różne mechanizmy wspierające realizację usługi konferencji. Efektem takiej sytuacji jest brak jednolitych rynkowych standardów. Przykładowo na potrzeby sterowania serwerem mediów przez serwer aplikacji (powiązanie tych dwóch modułów stanowi tutaj realizację bloku funkcjonalnego focus) zdefiniowano kilka konkurencyjnych protokołów. Każdy z nich został opisany przy udziale specjalistów pracujących dla różnych producentów systemów telekomunikacyjnych, w efekcie każdy z nich wspiera nieco odmienny zbiór zaawansowanych funkcji konferencyjnych. Z drugiej strony systemy konferencyjne obecne na rynku telekomunikacyjnym zawierają nierzadko innowacyjne funkcjonalności, nie objęte jeszcze przez proces standaryzacyjny.

W tym kontekście istnieje potrzeba zdefiniowania podstawowego zakresu wspomnianego zbioru. Jego zawartość ma bowiem kluczowe znaczenie przy analizie funkcjonalności serwera mediów (który wspiera realizację usługi konferencji), analizie porównawczej protokołów sterowania tym serwerem czy analizie funkcji całych systemów konferencyjnych złożonych z różnych modułów.

Przyjmijmy zatem, że do zaawansowanych funkcji konferencyjnych zaliczyć można:

  • Planowanie dokładnej daty i godziny rozpoczęcia konferencji oraz czasu jej trwania
  • Rozpoczynanie konferencji (czyli utworzenie instancji usługi konferencyjnej oraz rozpoczęcie pracy miksera i focusa) o wskazanym wcześniej czasie
  • Odtwarzanie komunikatów audio/video podczas konferencji (dla wszystkich lub wybranych uczestników) – np. o zbliżającym się zakończeniu konferencji lub o dołączeniu nowego uczestnika[20]
  • Interakcję z wybranymi użytkownikami podczas konferencji poprzez DTMF – umożliwia np. teległosowanie, czy też udzielanie pojedynczym uczestnikom słyszalnych tylko dla nich informacji (czas trwania konferencji, liczba uczestników etc)
  • Funkcjonalność floor control (termin ten pochodzi od angielskiego zwrotu to take the floor – zabrać głos – i oznacza sterowanie dostępem uczestników do „głosu”, czyli do medium, jakim jest strumień audio/video w konferencji.)

o Zwiększanie/zmniejszanie siły głosu poszczególnych uczestników konferencji

o Zarządzanie trybem uczestnictwa w konferencji

  • Tryb wykładu (lecture mode) – tylko jeden uczestnik konferencji (wykładowca) jest uprawniony do głosu (wysyłanie mediów – send media), pozostali mają prawo jedynie słuchać (odbieranie

mediów – receive media). Mogą zasygnalizować chęć zabrania głosu poprzez „podniesienie ręki”

  • Udzielanie/odbieranie prawa głosu innym uczestnikom konferencji

o Dopuszczenie do głosu tylko jednego uczestnika konferencji (tzw. tryb wykładowcy – lecture mode), podczas gdy inni mogą jedynie słuchać (odbierać strumień audio)

o Tworzenie subkonferencji (subconference) i konferencji pobocznych (sidebar conference) – czyli „konferencji w konferencji” o Łączenie kilku konferencji w jedną konferencję.


[1]  Przez przetwarzanie strumieni cyfrowych należy rozumieć wszelkie operacje na strumieniu bitów takie jak: kodowanie/dekodowanie, zmiana wartości bitów, synteza danych audio etc.

[2]  Dla ścisłości, tak zdefiniowana usługa multimedialna może również obejmować analogowe sygnały audio/video, jednakże w niniejszej pracy definicja odnosi się do sieci typu V2OIP – patrz rozdział 4.

[3]   W niniejszej pracy określenie strumienie cyfrowe audio/video jest stosowane zamiennie z określeniem „strumienie multimedialne”. Określenia te są równoznaczne.

[4]   skrót od waveform lub wave; Jest to standard zapisu dźwięku w formie pliku na komputerach typu IBM PC, opracowany przez firmy IBM i Microsoft. Zawiera najczęściej dane audio w formacie bezstratnym PCM, chociaż możliwe jest zastosowanie formatów stratnych.

[5]    Oznaczenie formatu plików zwanego QuickTime, opracowanego przez firmę Apple Inc. Pliki mov funkcjonuje jako tzw. kontener multimediów. Zawiera jedną lub wiele ścieżek, z których każda przechowuje dane określonego typu: audio, video, tekst etc. Format plików QuickTime stanowi podstawę standardu MPEG-4 Part 14.

[6]    Rozszerzenie pliku multimedialnego, który zawiera dane audio/video kodowane wg jednego ze standardów opracowanych przez grupę MPEG (Moving Picture Experts Group).

[7]    Przechodzenie między trybami wymaga renegocjacji parametrów sesji komunikacyjnej poprzez przesłanie wiadomości re-INVITE. Nie musi to być jednak konieczne – np. w sytuacji gdy do terminala SIP UE nagle zostanie zaprzestane wysyłanie strumienia video, strumień audio pozostanie bez zmian (zależy to jednak od implementacji terminala – niektóre terminale SIP UE mogą zerwać połączenie w przypadku, gdy nie będą już odbierać pakietów jednego ze strumieni. Z tego względu najbezpieczniej jest stosować mechanizm re-INVITE)

[8]   Przesyłanie tonów DMTF w tym samym kanale, co dane audio/video pochodzące z terminala.

[9]    Przesyłanie tonów DTMF w dedykowanym kanale komunikacyjnym, oddzielonym od kanału strumienia danych audio/video. Dla sieci V2OIP wykorzystujących protokół RTP rozwiązanie to zostało opisane w dokumencie RFC 2833.

[10] Funkcjonalność tę opisano w rozdziale 2.2.3.

[11] Spotkać się również można z określeniami legal interception, telephone tapping, wire tapping

[12] Communications Assistance for Law Enforcement Act

[13]  Jest to funkcjonalność opisana w dokumencie[12]. Umożliwia wymianę danych audio/video pomiędzy stroną wywołującą i wywoływaną w połączeniu zanim strona wywoływana dokona akceptacji sesji protokołu SIP. W praktyce bardzo często wykorzystywana w połączeniach na styku domen IP i komutacji pakietów. Np. gdy wywoływany z domeny IP terminal GSM jest wyłączony, centrala MSC odtwarza komunikat o niedostępności abonenta docelowego. Trafia on do abonenta SIP właśnie dzięki early media, mimo braku zestawionej sesji w znaczeniu SIP (nie dochodzi do ustanowienia połączenia).

[14]  Czyli takich, dla których istnieje centralny moduł utrzymujący sygnalizację z uczestnikami konferencji i zapewniający dostarczenie zmiksowanych strumieni audio/video.

[15]  Przedstawiona definicja poszerza definicję miksera zawartą w[8] o obsługę przez mikser strumieni, które nie bazują na protokole RTP (np. wiadomości natychmiastowych przesyłanych w ramach sesji usługi Instant Messaging & Presence, bazuj ących na protokole MSRP – Message Session Relay Protocol [32]).

[16] Real-time transport Protocol ([8]) – protokół zaprojektowany celem efektywnego przenoszenia danych audio/video w sieci IP

[17]   Zazwyczaj uczestnik konferencji wymienia tutaj wiadomości SIP tylko z jednym z pozostałych uczestników, a nie ze wszystkimi uczestnikami konferencji.

[18]   Sposób transmisji informacji do grupy adresów docelowych, który zakłada, że jeżeli dwa adresy znajdują się w lokalizacji, do której prowadzi ta sama ścieżka, wiadomość jest tą ścieżką wysyłana tylko raz, a następnie kopiowana, gdy ścieżka się rozdziela. Grupa adresów docelowych, do których wysyłana jest wiadomość, nazywana jest grupą multicast i posiada swój unikalny adres multicast..

[19] Możliwa jest sytuacja, w której funkcje focusa i miksera pełni jeden z terminali użytkownika. Wówczas konferencja jest jednocześnie konferencją typu end point mixing conference.

[20]   Można mówić o tzw. tajnym uczestnictwie w konferencji (secret participation) w przypadku, gdy dołączenie nowego uczestnika nie jest oznajmiane przez system poprzez odtworzenie komunikatu/dźwięku pozostałym uczestnikom lub o anonimowym uczestnictwie (anonimom participation) – gdy uczestnicy konferencji są informowani o dołączeniu nowego uczestnika, ale jego tożsamość pozostaje niejawna.

Borgesowska przypowieść o tworzeniu mapy Imperium w skali jeden do jednego [Borges 2005], to opowieść o wyszukiwarkach internetowych. Zawartość sieci jest tak bogata, że najistotniejszym zadaniem i problemem jednocześnie jest wyszukanie pośród ton śmieci tej jednej właściwej informacji. W tym celu jedni ludzie od dawna konstruują mechanizmy wyszukiwawcze (tzw. wyszukiwarki), a drudzy korzystają z nich, gdyż sami nie byli by w stanie przesiać tak dużych ilości informacji. Powodem jest nie to, że użytkownicy wyszukiwarek są ułomni lub leniwi – po prostu człowiek nie jest w stanie przetworzyć takich ilości informacji. Jako przykład możemy zaproponować komuś, wyszukanie informacji na temat miejsco­wości Knyszyn pod Białymstokiem, w zasobach Biblioteki Kongresu USA.

Faktem jest, że ludzie (szczególnie bardzo młodzi) postrzegają obecnie internet i jako źródło danych godne zaufania. Przypowieść o tym jak syn pyta swojego ojca: „Tato, czy jak czegoś nie ma w Googlu, to znaczy ŻE TO NIE ISTNIEJE?”, przestaje być śmieszna. „Myślę więc jestem” [Kartezjusz] traci aktualność, gdyż firmy tworzące „mapę Imperium” pragną zdjąć z barków internauty, cały ciężar związany z myśleniem. Akurat Kartezjusz „jest w” Google, więc „istnieje”, ale ogromna ilość informacji pomimo, że jest w sieci, nie jest zaindeksowana przez wyszukiwarki.[1]

Jak stwierdził w 2005 roku szef Google Inc. – Eric Schmidt – „świat to tylko 5 milionów terrabajtów danych – Google zaindeksowało już 170 terrabajtów”, reszta (ekstrapolując tempo indeksowania) zajmie im 300 lat… Google traktuje to zadanie bardzo poważnie. [za: Mills] Należy oczywiście pamiętać, że mówiąc „świat”, Schmidt nie ma na myśli wszystkich danych zgromadzonych w komputerach, tylko „świat” jako wszystkie dane: informacje w sieci, książki wydrukowane, rozprawy naukowe, mapy i modele obiektów na Ziemi.[2] W wizji Google, internet to Biblioteka [Borges 2003] wymagająca Bibliotekarza (czyli właśnie Googla), który dopomoże czytelnikowi, czy będzie tego chciał, czy nie… [por. Lipszyc]

Mapa bez-Imperium

Cóż jednak się stanie, gdy mapa przerośnie Imperium, lub gdy Imperium rozsypie się w proch? „Ludzie wieku elektronicznego […] kształtują samych siebie na obraz i podobieństwo technologii” [Bolter], musi dojść jednak do momentu, w którym to technologia będzie kształtować samą siebie na wzór ludzi… Będzie to Sztuczna Inteligencja.


[1]  dane obecne w internecie mogą być nie zaindeksowane przez wyszukiwarki z różnych powodów, np. błędów w kodzie HTML, zabezpieczeń hasłami, itp. Mogą też być celowo blokowane przez wyszukiwarkę, jako tzw. treści nieporządane – [czyt.: Internet].

[2]  Obecnie Google oferuje wiele serwisów wyszukiwawczych, np.: Google Search – google.com/. Google Images – images.google.com/. Google Groups – groups-google-com