|
楼主

楼主 |
发表于 2007-1-23 10:03:16
|
只看该作者
Unstructured data and Unstructured ETL
做IT的整天和数据打交道,无非就两种:结构化数据和非结构化数据。结构化数据可以很轻松的被导入到数据仓库中,因为不管是3NF还是星型模型,它们在结构上都属于结构化数据。而非结构化数据包括e-mail,spreadsheet,text,documents,reports。结构化和非结构化有很多的不同,而要想把这些非结构化数据利用到数据仓库中,一定要先解决下面的问题:
1 在结构化数据中可以保证的完整性、一致性如何在非结构化数据中保证呢?
2 如何同步非结构化中的数据呢?
3 如何获取非结构化数据?因为可能需要从包括.txt/.pdf/.doc/email等格式的文件中取得数据。
4 如何获取有用的信息?在doc文件中有很多文字都是没有用的,如何定位到你确切需要的信息呢?
5 如何对非结构化中的数据进行操作?
6 非结构化的数据如何与结构化数据集成?同样都是一个词,它们在各自的环境下代表的含义一样吗?
我们通过ETL工具来进行结构化数据到数据仓库的抽取,那么就应该用非结构化的ETL工具来实现从非结构化数据到数据仓库的抽取,那么非结构化ETL工具就一定要解决上述问题。
有需求就会有解决方法。现在设计的数据仓库能真正利用txt信息的就不多,而且我们一般都是通过人工的方法把一些文本信息采集到数据仓库中。不知是否还有哪些更有效的方法呢? |
|