Etika, Distribusi Linux dan “Scraper Sites”

Linux dan distribusinya adalah perangkat lunak yang bersifat FLOSS. Artinya, pengguna memiliki kebebasan untuk menggunakannya. Salah satu bentuk kebebasan ini adalah kebebasan untuk melakukan ‘forking’, yaitu membuat tiruan dari perangkat lunak yang bersangkutan.

‘Forking’ sudah menjadi kejadian yang umum di dunia FLOSS. Sebagai contoh, pada tahun 1998 distribusi [Mandrake Linux](http://en.wikipedia.org/wiki/Mandriva_Linux) (sekarang bernama Mandriva) pertama kali dirilis sebagai tiruan dari distribusi [RedHat Linux](http://en.wikipedia.org/wiki/Red_Hat_Linux). Sedangkan distribusi [CentOS](http://en.wikipedia.org/wiki/CentOS) adalah tiruan dari distribusi [RedHat Enterprise Linux](http://en.wikipedia.org/wiki/Red_Hat_Enterprise_Linux). Saya sendiri pernah terlibat dalam pembuatan sebuah tiruan distribusi Linux, yaitu [BlankOn Linux](https://priyadi.net/archives/2005/02/03/blankon-linux-mudah-mudahan-sudah-menginjak-10/) yang merupakan tiruan dari distribusi [Fedora Core](http://en.wikipedia.org/wiki/Fedora_Core).

Bagaimana komunitas Linux menyikapi ‘forking’? Pada sebagian besar kasus, ‘forking’ dianggap sebagai sesuatu yang dalat dibenarkan. ‘Forking’ tidaklah dilarang oleh lisensi Linux dan perangkat lunak pendukungnya. Ada banyak ide-ide baru menemukan tempatnya dalam bentuk ‘forking’ dan ide-ide tersebut tidak mungkin berkembang tanpa adanya ‘forking’. Salah satu dasar dari FLOSS adalah hak untuk melakukan ‘forking’.

\*\*\*

Semangat FLOSS juga berkembang ke bidang lain. Di antaranya adalah jurnalisme (dalam bentuk blog), ensiklopedia (dalam bentuk [Wikipedia](http://en.wikipedia.org)) dan direktori situs web (dalam bentuk [ODP](http://www.dmoz.org)).

Sama seperti pada bidang perangkat lunak, bentuk baru dari semangat Open Source ini juga meliputi hak untuk melakukan ‘forking’. Akibat dari hak ini, kita dapat menikmati layanan [Google Directory](http://www.google.com/dirhp) yang menggunakan data dari [ODP](http://www.dmoz.org). Kita juga dapat menikmati [ensiklopedia saku](http://members.chello.nl/epzachte/Wikipedia/) yang mendapatkan data dari proyek [Wikipedia](http://en.wikipedia.org).

Yang menjadi permasalahan adalah situs-situs ‘scraper’. “Scraper sites” adalah situs-situs yang sebanyak mungkin ‘mencuri’ isi dari situs pihak lain dengan tujuan mendapatkan *hit* dari pengunjung yang mencari kata atau frase tertentu dari mesin pencari seperti [Google](http://www.google.com) dan [Yahoo! Search](http://search.yahoo.com). Pemilik situs kemudian mendapatkan profit dari program afiliasi seperti [Google Adsense](http://www.google.com/adsense/) atau semacamnya.

Sama sekali tidak ada nilai tambah yang dilakukan pemilik “scraper sites” terhadap konten yang didapatkan dengan gratis. Isi situs ‘scraper’ hanya bertujuan semata-mata untuk menjaring *hit* dari mesin pencari. Situs-situs seperti blog, Wikipedia dan ODP sudah menjadi langganan ‘korban’ situs-situs ‘scraper’ ini.

Wikipedia mengelola halaman [*Mirror and Forks*](http://en.wikipedia.org/wiki/Wikipedia:Mirrors_and_forks) yang sebagian besar berisi situs-situs ‘scraper’ ini.

\*\*\*

Jika ‘forking’ distribusi Linux bisa diterima dan dibenarkan, apakah ‘scraper sites’ juga dapat dibenarkan? Secara hukum memang tidak ilegal, tetapi hati nurani saya mengatakan ini adalah sesuatu yang tidak etis dan tidak dapat dibenarkan.

* Dari sisi pemilik konten, ‘scraper sites’ tidak ilegal karena lisensinya memang mengizinkan. Lisensi yang dimaksud adalah [GFDL](http://en.wikipedia.org/wiki/GFDL) pada Wikipedia, [Open Directory License](http://www.dmoz.org/license.html) pada ODP atau beberapa jenis lisensi [Creative Commons](http://www.creativecommons.org) yang digunakan pada sebagian besar blog. Berbeda halnya jika pemilik situs ‘scraper’ tidak mengindahkan hak cipta. Pada kasus ini situs ‘scraper’ dapat dipastikan adalah ilegal.

* Pemasang iklan (misalnya iklan [Google AdWords](http://www.google.com/adwords/) yang dipasang pada situs-situs ‘scraper’) kemungkinan besar akan keberatan jika iklannya dipasang pada situs-situs ‘scraper’. Satu-satunya solusi bagi mereka adalah memblokir situs-situs ‘scraper’ sehingga tidak akan menampilkan iklan mereka. Google sendiri belum melakukan tindakan memblokir akun yang dimiliki oleh situs-situs ‘scraper’.

* Pengguna mesin pencari tidak diuntungkan dengan keberadaan situs-situs ‘scraper’. Hasil pencarian akan menampilkan banyak *hit* dengan isi sama persis dan ‘dihiasi’ oleh berbagai macam iklan. Adanya situs-situs ‘scraper’ akan memperburuk hasil pencarian dan tentunya ini tidak diinginkan oleh pengguna.

* Mesin pencari yang berorientasi ke pengguna tidak menyukai situs ‘scraper’. Semakin banyak situs ‘scraper’ yang muncul di hasil pencarian artinya semakin buruk kualitas pencarian dan semakin besar potensi pengguna untuk pindah ke mesin pencari yang lain. Beruntung bagi kita, karena sejak bulan Juli tahun ini, Google berusaha dengan keras untuk menghilangkan situs-situs ‘scraper’ dari hasil pencarian.

25 comments

  1. Hmm jadi hampir seperti copy paste ya :-? Bagaimana kalau menerjemahkan suatu artikel atau berita dari berbagai macam sumber online dengan lisensi seperti itu, masuk ’scraper sites’ ngga ?

  2. Gua kurang setuju dengan definisi forking lu di atas, Pri. Forking itu kalo gua bilang sih kalo dia ngopi tapi menambah value atau mengubah tujuan. Copying itu yg cuma sekedar njiplak tanpa nambah value atau mengubah tujuan.

  3. iya sih, klo situs-situs scraper aku ragu bisa dikategorikan sebagai forking, tp mgk menikmati kebebasan yang sama seperti halnya forking, i.e: kebebasan untuk membuat versinya sendiri.

    *paling males klo search dapetnya malah halaman search engine, ping-pong!*

  4. #2: yup, ada banyak di blogspot, gua juga pernah kena blog scraper

    #3: kalau nerjemahin kemungkinan besar bukan scraper, tapi sebaiknya minta izin dulu ke yang punya artikelnya

    #4: ah, slashdot sih bukan scraper :)

    #5: yup emang kurang pas :) tapi esensinya sama, banyak juga distro linux yang cuma forking tanpa banyak nilai tambah, tapi somehow gua pikir it’s ok, beda dengan scraper sites

    #6: hmm, gak tau juga, perlu butuh contoh spesifiknya :)

    #7: detikusable memang masuk daerah abu-abu, tapi IMHO bukan scraper menurut definisi saya di atas. kalaupun ada masalah, lebih berhubungan ke hak cipta konten milik detik.com

  5. Kalo blog scraper-nya Pri memang tergolong scraper yah.. Kalo iya juga, aku gak melihat sisi negatifnya. Dia kan cuma ngambil cuplikan halaman web yg membahas soal memory.. tanpa iklan. Berita selengkapnya tetep diujukan ke sumber aslinya. Nambah hit buat Pri juga..:d

  6. Ada isu, katanya spider Google juga kurang suka dengan “scraper”. Kini, apalagi terkait dengan urusan Adsense, Google lebih menyukai content yang unik dan spesifik. Apa benar begitu? Ada yang bisa kasih konfirmasi? :-?

  7. #10: hmm iya memang gak masuk definisi scraper yang saya buat di atas. tapi tetap aja ada udang di balik batu. yang jelas semua halaman2nya itu digenerate otomatis, dan bukan tulisan manusia. perkiraan saya: pingback spam, referer spam atau technorati spam. tujuannya untuk menaikkan peringkat google halaman jualannya.

    #11: mungkin ciri paling jelasnya adalah digenerate oleh program komputer yang bersumber dari situs lain di internet, dan bukan buatan manusia. ada banyak yang beginian di blogspot.com :)

    #12: sebagian besar scraper justru mencantumkan sumbernya. mungkin supaya comply dengan lisensi wikipedia/ODP misalnya. tapi seandainya dibuat oleh manusia kemungkinan besar bukan scraper, hampir semua scraper sites digenerate otomatis oleh program komputer

    #13: contoh wikipedia scraper

  8. Bagaimana komunitas Linux menyikapi ‘forking’? Pada sebagian besar kasus, ‘forking’ dianggap sebagai sesuatu yang dalat dibenarkan. ‘Forking’…

    Mas itu tulisannya yang dicetak tebal salah yaa? kata itu maksudnya dapat khan?

    Maaf jika memang maksud mas pri memang dalat, jadi saya yang salah :)

  9. Sebenarnya menciplak itu boleh. Tapi kalo nggak ada kelebihan apa2 ya mendingan pake yang aslinya aja. Contohnya dari yang asli sudah ada program A dan tidak ada program B. Kalo ciplakan lebih lengkap dari yang A ya bagus. tapi kalo nggak ya ngapain buang2 tenaga dan pikiran untuk yang tidak menarik orang lain untuk menggunakannya.

    Gitu lho opini ku. :-)

  10. gabung lagi.
    mungkin ada juga istilah scrapper friendly (ini ngarang asli) atau mungkin istilahnya “silahkan di scapper” dengan memasukkan rss/atom feed yang dimiliki oleh suatu situs dan tentu dengan persetujuan dari pemilik feed, dan si penerima tinggal parsing rss yang diterimanya dan memasukkannnya dalam situsnya.
    atau mungkin juga situs komunitas (lirik Oom nonos), jadi menurut saya scrapper itu tergantung dari si pemilik content tersebut, jika memang dia ‘rela’ memberikan contentnya pada yang lain why not.., istilahnya mungkin aggregator or you-know-what-i-mean-lah.
    kalo detik.usable saya kira itu adalah hasil ‘kecintaan’ pembaca detik.com pada detik.com :P

  11. Fork = Garpu
    Forking lebih tepat diartikan sebagai pencabangan (seperti bentuk jari-jari garpu). Tidaklah tepat mengartikannya sebagai tiruan. Forking tidak sekedar tiruan, tetapi lebih tepat sebagai turunan OSS yang memiliki nilai tambah. Itu lah makanya dia disebut sebagai forking dari OSS induknya.

Leave a Reply to tuxkeren Cancel reply

Your email address will not be published. Required fields are marked *