Kita mungkin memparafrase Web Sains sebagai ilmu dari Web. Sementara ini kesetaraan mungkin jelas apabila kita mulai dengan memecah frase dan membuat sketsa komponen yang memungkinkan Web berfungsi sebagai sistem informasi efektif yang terdesentralisasi. Kami akan meninjau dasar prinsip arsitektur dari Web, yang dirancang untuk mendukung pertumbuhan dan nilai sosial perilaku berbagi sebuah informasi dan dapat dipercaya,dalam Bagian 2.1.
Bagian 2.2 akan menawarkan beberapa refleksi metodologis pada penyelidikan ilmiah dari Web.
Web 2.1 arsitektur
Arsitektur dari Web merupakan eksploitasi teknologi sederhana yang terhubung secara efisien untuk mengaktifkan ruang informasi yang sangat fleksibel dan
bermanfaat, dan skala yang paling penting. Web saat ini mengesankan platform tempat ribuan bunga telah mekar,dan harapan itu dapat tumbuh lebih lanjut, meliputi bahasa lebih lanjut, media dan kegiatan yang lebih banyak, hosting informasi lebih lanjut, serta menyediakan alat dan metode untuk menginterogasi data yang keluar. Dalam bagianpembukaan ini kita akan meninjau secara singkat prinsip utama yang mendasari web arsitekture.
Web adalah ruang di mana sumber daya yang diidentifikasi olehUniform Resource Identifier (URI - [33]). Ada protokol untuk mendukung interaksi antara agen, dan format untuk mewakili informasi source. Ini adalah bahan dasar dari Web.
Desain mereka tergantung utilitas dan efisiensi interaksi Web, dan desain yang tergantung pada gilirannya pada sejumlah prinsip, beberapa diantaranya merupakan bagian dari konsepsi asli, sementara yang lain harus belajar dari pengalaman.
Identifikasi sumber daya penting untuk dapat berbagi informasi tentang mereka, alasan tentang mereka, memodifikasi atau pertukaranmereka.
Sumber daya tersebut dapat berupa apa saja yang dapat dihubungkan ataudibicarakan; banyak sumber daya adalah murni informasi, tetapi yang lain tidak. Selanjutnya, tidak semua sumber daya yang di Web, di bahwa mereka mungkin dapat diidentifikasidari
Web, tetapi tidak mungkin dapat diambil dari itu. Sumber daya yang pada dasarnya informasi, dan yang karenanya dapat diberikan tanpa abstraksi dan dicirikan sepenuhnya dalam pesan disebut
SOURCE INFORMATION.
Untuk penalaran dan fungsi mengacu terjadi pada skala global, sistem identifikasi diperlukan untuk menyediakan satu global standar; URI menyediakan sistem itu. URI bertindak sebagai nama (dan alamat - lihat Bagian 3.1.2 di bawah ini untuk pembahasan masalah ini), dan sebagainya apakah mungkin untuk menebak sifat sumber daya dari perusahaan URI, yangmerupakan Hal kontingen, dalam URI umumnya mengacu kepada opaquely.
Prinsip-prinsip hubungan antara URI dan sumber daya yang diinginkan tetapi tidak tegas dilaksanakan , biaya gagal mengaitkan URI dengan sumber daya adalah ketidakmampuan untuk merujuk ke sana, sedangkan biaya penempatan dua sumber ke URI akan error, sebagai data tentang salah satu sumber daya akan diterapkan ke lainnya.
URI juga menghubungkan Web dengan dunia sosial offline, mereka mewajibkan lembaga. Mereka berada di bawah skema didefinisikan tertentu, yang mungkin yang paling umum dipahami adalah HTTP, FTP dan mailto. Skema tersebut terdaftar dengan internet Ditugaskan Nomor Authority (IANA -http://www.iana.org/assignments/urischemes).
Skema ini harus dioperasikan pada jalur berprinsip pada Order agar efektif. Jadi jika kita ambil HTTP sebagai contoh, HTTP URI dimiliki dan menyalurkan oleh orang atau organisasi, dan maka dapat dialokasikan secara bertanggung jawab atau tidak bertanggung jawab. Sebagai contoh, sebuah URI HTTP harus mengacu kesumber tunggal, dan dialokasikan untuk pemilik tunggal. Hal ini juga diinginkan untuk suatu URI untuk merujuk kepada sumber daya yang permanen, dan tidakmengubah referensi dari waktu ke waktu (lihat Bagian 5.4.6 di bawah). Komunikasi melalui Web melibatkan pertukaran pesan yang dapat berisi data atau metadata tentang sumber daya. Salah satu tujuan umum dari komunikasi adalah mengakses sumber daya melalui URI, atau untuk dereference URI. Jika sumber daya telah diberi sebuah identifier, sumber daya harus dalam beberapa cara yang dapat diperoleh kembali dari pengenal agar bisa nilai. Dereferencing biasanya
melibatkan menemukan indeks yang tepat untuk mencari pengenal. Ada sering petunjuk dalam pengenal, atau penggunaan bantuan identifier, yang di sini, terutama jika pihak berwenang dalam penamaan memiliki semacam hirarki struktur.
Web mendukung berbagai format file, yang paling terkenal adalah HTML. Beberapa format yang diperlukan, dan format perlu fleksibel, karena sifat heterogen dari interaksi antar web. Konten dapat diakses melalui segala macam perangkat, paling sering ialah dengan PC atau perangkat mobile, dan nilai lebih dapat diekstraksi dari Web jika penyajian konten adalah perangkat-independen sejauh mungkin (Idealnya kompatibel dengan perangkat yang belum terbayangkan). Memisahkan representasi dari isi dari keprihatinan presentasi dan interaksi adalah praktik yang baik di sini; bawah seperti konten, rezim, presentasi dan interaksi perlu digabungkan dengan cara yang bermanfaat secara maksimal, yang umumnya dilakukan sebagian oleh server dan sebagian oleh klien, rasio yang tepat antara kedua tergantung pada konteks interaksi. Kekuatan Web berasal dari Melinkannya sehingga memungkinkan. Sebuah sumber daya dapat berisi referensi ke sumber lain dalam bentuk yang tertanam dalam URI yang dapat digunakan untuk mengakses sumber daya kedua.
Link ini memungkinkan navigasi asosiatif theWeb. Untuk memudahkan untuk hubungan ,format harus mencakup cara untuk membuat dan mengidentifikasi link ke sumber daya lainnya,dan juga harus memungkinkan link ke setiap sumber daya di mana saja melalui Web, dan tanpa membatasi penulis konten untuk menggunakan skema tertentu URI.
Sebuah tujuan penting dari Web Ilmu adalah untuk mengidentifikasi aspek-aspek penting seperti identifikasi, interaksi dan representasi yang membuat Web Work, dan untuk memungkinkan pelaksanaan sistem yang dapat mendukung atau mempromosikan perilaku yang diinginkan. Pengalaman menghubungkan dokumen ,dan semakin, data rilis kekuatan besar, baik untuk penulis dan pengguna.
Kemungkinan kembali kebetulan konten memberdayakan penulis untuk meningkatkan pengaruh mereka, dan pengguna dengan menyediakan akses informasi yang lebih dari yang dapat terealisasi dengan menggunakan teknologi lainnya.
Secara khusus, tiga fungsi identifikasi, interaksi dan representasi harus dipisahkan. Mengubah atau menambahkan skema untuk identifikasi, misalnya, seharusnya tidak berpengaruh pada skema untuk interaksi atau representasi, memungkinkan independen, evolusi modular arsitektur web sebagai teknologi baru dan aplikasi baru mulai beroperasi (Yang tidak berarti bahwa spesifikasi ortogonal tidak mungkin co-berevolusi siklis dengan satu sama lain). Demikian pula, teknologi harus diperluas,yaitu mereka harus mampu berkembang secara terpisah tanpa mengancam interoperabilitas mereka dengan teknologi lainnya.
Akhirnya, prinsip penting arsitektur Web yang error harus ditangani secara sederhana dan fleksibel. Kesalahan sangat penting - dalam sebuah informasi
ruang yang ukurannya dapat diukur dalam ribuan terabyte, dan jumlah pengguna dalam ratusan juta, heterogenitas tujuan dan kualitas beragam kepengarangan berarti bahwa akan ada banyak sekali kesalahan desain. Keberadaan link menjuntai (link menggunakan URI tanpa sumber daya di akhir itu), konten yang tidak baik-formed atau lainnya , kesalahan yang ditebak seharusnya tidak menyebabkan sistem crash, tuntutan interoperabilitas mengharuskan bahwa agen harus dapat pulih dari kesalahan, tanpa kompromi kesadaran pengguna bahwa kesalahan
telah terjadi.
Sebagai web yang tumbuh dan berkembang untuk memenuhi situasi baru dan tujuan, arsitektur harus berkembang. Tapi evolusi perlu bertahap dan hati-hati (yang lambat dan selalu telaten negosiasi standar komite adalah cara yang baik untuk menggabungkan gradualisme dengan Kehebatan untuk tujuan), dan prinsip menjaga perkembangan ortogonal terpisah berarti bahwa evolusi di satu daerah tidak boleh mempengaruhi evolusi tempat lain. Evolusi perlu menghormati invariants penting dari sebuah Web, seperti ruang URI, dan penting bahwa pengembang setiap saat bekerja untuk melestarikan aspek-aspek Web yang perlu diawetkan.
Ini merupakan bagian dari misi dari W3C Teknis Arsitektur Kelompok [154], meskipun standar dapat hanya pernah menjadi bagian dari cerita. prinsip-prinsip arsitektur Web akan selalu diperdebatkan di luar W3C, cukup baik, serta di dalamnya.
Web 2.2 Metodologi
Jika penyelidikan dari Web yang akan dihitung sebagai benar ilmiah,
maka pertanyaan segera adalah bagaimana metode ilmiah harus berlaku untuk domain tertentu. Bagaimana seharusnya peneliti dan insinyur pendekatan Web untuk memahami dan hubungannya dengan masyarakat luas, dan untuk berinovasi?
Berbagai aspek dari Web relatif baik dipahami, dan sebagai artefak direkayasa blok bangunan yang dibuat, bukan fenomena alam.
Namun demikian, sebagai Web telah berkembang dalam kompleksitas dan jumlah dan jenis interaksi yang terjadi telah membengkak, tetap kasus yang kita tahu lebih banyak tentang beberapa fenomena alam yang kompleks (contoh jelas adalah genom manusia) dari yang kita lakukan dalam hal ini khusus direkayasa salah satunya
Untuk mengambil satu contoh, ada sejumlah teknologi dan metode untuk pemetaan Web dan menandai keluar topologi nya (lihat Bagian 4.1 di bawah ini). Apa peta seperti kepada kita (lih. misalnya [80])? . Para visualisasi seringkali sangat mengesankan, dengan tiga dimensi interpretasi dan warna-kode link antara node. Tapi bagaimana diverifikasi adalah peta seperti itu? Dalam apa indra mereka memberitahu kita 'bagaimana Web adalah'? Apa keterbatasan?
Aplikasi jelas, dalam hal metodologis, peta dan grafik struktur Web adalah untuk langsung sampling, dengan menentukan properti yang model dan sampel dari Web seharusnya. Pertumbuhan pesat dari Web membuat survei lengkap pertanyaan tahun lalu, dan ilmuwan kebutuhan informasi statistik yang cepat dan tepat waktu tentang isi sastra Web tersedia. Perwakilan sampling adalah kunci untuk metode tersebut, tapi bagaimana seharusnya sebuah sampel dikumpulkan untuk menjadi tepat disebut wakil [188]? Untuk menjadi benar bermanfaat, sampel harus acak; 'keacakan' biasanya didefinisikan untuk domain tertentu, dan pada umumnya berarti bahwa semua individu dalam domain memiliki probabilitas yang sama untuk terpilih sebagai sampel.
Tapi untuk Web yang perlu, misalnya, memahami apa yang individu, misalnya, apakah kita peduli dengan website atau halaman Web? Jika yang pertama, maka orang bisa membayangkan kesulitan karena tidak ada pencacahan lengkap dari mereka. Dan metode sampling berdasarkan, mengatakan, alamat IP yang rumit oleh penduduk tentu jarang dari ruang alamat [219].
Selanjutnya, meskipun untuk banyak tujuan Web dapat dianggap sebagai ruang informasi statis, tentunya dinamis dan berkembang.
Jadi segala upaya untuk memahami longitudinal Web akan perlu evolusi itu ke dalam rekening [218], dan model idealnya harus memiliki pertumbuhan sistem (dalam hal penambahan konstan simpul baru dan tepi ke dalam grafik), bersama-sama denganlink struktur yang tidak invarian dari waktu ke waktu, dan hubungan domain hirarki yang senantiasa rentan terhadap revisi, dibangun ke dalam mereka (lih. misalnya [253]).
Analytic pemodelan dikombinasikan dengan data empiris yang dikumpulkan dengan hati-hati dapat digunakan untuk menentukan probabilitas halaman Web yang sedang diedit (mengubah konten informasi mereka) atau tidak dihapus. Salah satu percobaan pengawasan ratusan ribu halaman selama beberapa bulan membuahkan hasil yang menarik: setiap putaran satu waktu sekitar 20% dari laman web di bawah 11 hari tua, sedangkan 50% muncul di tiga bulan sebelumnya. Di sisi lain, 25% lebih dari berumur tahun - usia yang didefinisikan di sini sebagai selisih antara waktu modifikasi terakhir ke halaman dan waktu download [43].
Percobaan lain yang terlibat merayapi 150m halaman HTML sekali seminggu selama 11 minggu, dan menemukan, misalnya, hubungan yang kuat antara top-level domain dan frekuensi perubahan (. halaman com diubah lebih sering daripada gov atau. halaman edu.), dan bahwa dokumen-dokumen besar (mungkin counterintuitively) mengubah lebih sering dari yang kecil.Frekuensi perubahan terakhir adalah prediktor yang baik dari perubahan masa depan, hasil potensial penting bagi perayap Web incremental [99]. Perkembangan metode sampling Web feed dengan sangat cepat ke dalam pengembangan pencarian lebih efisien dan akurat. Metode untuk menemukan informasi secara online, baik logis atau heuristik, apakah data-berpusat atau pada model sistem temu kembali informasi, membutuhkan pemetaan yang akurat.
Jadi salah satu aspek dari Web Ilmu adalah penyelidikan dari Web untuk tempat ancaman, peluang dan invariants untuk pengembangannya. Lain adalah teknik baru, metode mungkin tak terduga berurusan dengan informasi, yang menciptakan ekstensi non-konservatif dari Web. teknik tersebut dapat berbasis penelitian, atau industri berbasis.
Sintesis sistem baru, bahasa, algoritma dan alat-alat adalah kunci untuk pengembangan koheren dari Web, seperti, misalnya, dengan studi tentang sistem kognitif, dimana banyak kemajuan beberapa tahun terakhir telah datang dengan teknik eksplorasi serta sebagai analisis dan deskripsi (lih. misalnya [51]). Jadi, misalnya, satu-satunya cara untuk menemukan efek dari file sharing radikal desentralisasi adalah untuk mengembangkan peer to peer sistem dan operasi mereka amati pada skala semakin besar. Seperti upaya rekayasa perintis sangat penting untuk pengembangan Web, melainkan setelah semua konstruksi. Hal ini penting untuk Web secara keseluruhan bahwa implementasi sistem berinteraksi dan tidak mengganggu, yang mana badan standar memainkan peranan penting.
Oleh karena itu Web Sains adalah kombinasi dari sintesis, analisis dan pemerintahan.
Dalam sisa teks ini, kami akan mengambil tiga aspek pada gilirannya,
dimulai dengan sintesis, maka analisis, dan kemudian isu-isu sosial yang
berdampak pada pengembangan Web, sebelum berakhir dengan diskusi
masalah pemerintahan.