Tecnología, Internet y juegos
65 meneos
860 clics
Este envío tiene varios votos negativos. Asegúrate antes de menear

Cómo Dropbox sabe si compartes material con copyright (sin mirar su contenido) [ENG]

Artículo que explica el sistema que sigue Dropbox para encontrar infracciones de copyright denunciados por DCMA

| etiquetas: dropbox , dcma , hashing
57 8 22 K -81
57 8 22 K -81
  1. Pantallazo del bloqueo t.co/fSKxJUrFus que hizo saltar la noticia
  2. Resumen: Comparan el hash de tus archivos con una base de datos del hash de archivos con copyright.

    El hash es un identificador cuasi-único que se genera en base al contenido del archivo. Con que cambie un único bit cambia el hash.
  3. #2 Según dicen esa comparación solo la hacen con los archivos que compartes con otros o haces públicos. Si los mantienes privados no miran nada, dicen.
  4. #2 El artículo no aclara de dónde sacan la información de que el sistema funciona exactamente así, pero según la explicación que dan es exactamente como dices y, efectivamente, sería muy fácil de evitar.
    Yo me imaginaba que usarían alguna función de hashing un poco más sofisticada que no se limite a hacer el hash byte a byte sino que haga un fingerprint del contenido como el Acoustid de Musicbrainz o el Content ID de YouTube.
  5. #4 Yo me imaginaba que usarían alguna función de hashing un poco más sofisticada

    A Dropbox se la sopla que haya archivos con copyright en sus servidores pero tienen que cumplir con la ley. Si una distribuidora les dice que tal archivo tiene copyright pues a menos que les presionen por otro lado lo único que tienen que hacer para cumplir con la ley es bloquear ese archivo y todas las copias que haya en sus servidores.

    El hash permite hacer eso de una forma sencilla y a un coste razonable.
  6. El único hash bueno es el que se fuma...
  7. Tal vez hagan el Hash solo a partes del archivo. No creo que técnicamente sea tan complicado
  8. Realmente sí que miran el contenido, miran todos y cado uno de los bytes del contenido y los suman para calcular el hash (una especie de formula que calcula en base a una especie de suma de cada byte del archivo un resultado unico para cada fichero).
    Que lo haga un software no quiere decir que no miren su contenido.

    Si se metiese el archivo en un comprimido con contraseña junto con otros pequeños archivos irrelevantes el hash sería diferente, incluso seguro que hay herramientas para cambiar el hash sin modificar el contenido del archivo original (añadiendo datos que no modifiquen el archivo)
  9. #6 ... no lo conocía. ¿Es una nube de estas como Dropbox o GDrive? ¿Sabes de cuánto espacio dispones?
  10. Que yo sepa para hacer un hash es necesario leer el contenido de los ficheros. A no ser que el hash sea del nombre del fichero, cosa que dudo bastante.
  11. Habrá que usar Owncloud
  12. #12 Si, el tema es que lo haces tu en local, no lo leen ellos en sus servidores, así matan dos pájaros de un tiro: si ya hay otro archivo con el mismo hash te evitas subirlo, y de paso cumplen eso de que no leen el contenido de tus archivos
  13. Pues yo uso Copy y la verdad es que estoy encantado... www.copy.com

    Por cierto, relacionada:
    www.elladodelmal.com/2013/12/lo-que-se-comparte-por-dropbox-al.html
  14. Debe haber software gratis a patadas que te permita introducir pequeñas modificaciones no destructivas en un archivo para cambiar su hash y saltarte la vigilancia de hash.
  15. #9 Si nos ponemos así también lo miran cuando lo subes y lo bajas
  16. #8 Sí, también he pensado en eso, pero es lo mismo, sería igual de fácil de saltar, basta con recodificar el fichero. O ni siquiera hace falta recodificarlo, solo cambiar el mux (de avi a mkv, por ejemplo).
  17. #9 En un archivo de audio sería tan sencillo como cambiar el valor de una muestra por el del intervalo de cuantificación inmediatamente superior o inferior (como sumar o restar uno al mas pequeño de los decimales del número que simboliza la amplitud del sonido en un momento). Del todo inapreciable y el hash ya es otro.
  18. #20 Mejor los metadatos, como por ejemplo en un mp3, donde está el titulo de la canción, autor, disco, ...
  19. #21 Pues sí, mas fácil. Aunque es posible que hagan el hash de todo el audio sin incluir la parte de los metadatos precisamente por esa facilidad. Es muy común (o al menos antes lo era) que la gente modificara los metadatos de sus colecciones de MP3 para organizarlos mas a su gusto o para eliminar la firma del que lo ripeó, por lo que te podías encontrar en mismo MP3 con muchos metadatos distintos.

    Pero ya es suponer por suponer.
  20. #20 #21 ¿y no es más fácil comprimirlo y cambiarle la extensión al archivo?
  21. #23 Ya, ¿pero quién quiere una solución fácil habiendo una retorcida que te haga tener que aprender las cabeceras de los archivos y su estructura interna para luego olvidarla porque no la usarás nunca mas?
  22. Spoiler: usan hashes del material que es denunciado por las empresas del media. Otra.

    Irrelevante.
  23. Sólo espero que no sea un método de hashing tan chapucero como el que tenía Megaupload antes del cierre. Recuerdo que me fue imposible subir un par de archivos porque detectaba que ya estaban subidos y eran otros.
  24. #23 Una simple compresión podría no ser suficiente.

    Mejor añadirle un poco de sal. Por ejemplo meter el archivo que quieres en un directorio junto con un fichero en el que escribes cualquier cosa.

    Aunque proteger el fichero con una clave, por muy sencilla que sea y muy poco fiable que sea el algoritmo de cifrado, también valdría. Eso sí, sería mucho más incómodo.

    #8 El hash es de un archivo. Se pueden hacer cosas sobre partes de un archivo, pero ya no sería hash. Haría falta mucha más potencia de cálculo ya que tendrían que analizar todo el archivo en busca de esas partes.
comentarios cerrados

menéame