SAS中文论坛
标题:
Unstructured data and Unstructured ETL
[打印本页]
作者:
shiyiming
时间:
2007-1-23 10:03
标题:
Unstructured data and Unstructured ETL
做IT的整天和数据打交道,无非就两种:结构化数据和非结构化数据。结构化数据可以很轻松的被导入到数据仓库中,因为不管是3NF还是星型模型,它们在结构上都属于结构化数据。而非结构化数据包括e-mail,spreadsheet,text,documents,reports。结构化和非结构化有很多的不同,而要想把这些非结构化数据利用到数据仓库中,一定要先解决下面的问题:
1 在结构化数据中可以保证的完整性、一致性如何在非结构化数据中保证呢?
2 如何同步非结构化中的数据呢?
3 如何获取非结构化数据?因为可能需要从包括.txt/.pdf/.doc/email等格式的文件中取得数据。
4 如何获取有用的信息?在doc文件中有很多文字都是没有用的,如何定位到你确切需要的信息呢?
5 如何对非结构化中的数据进行操作?
6 非结构化的数据如何与结构化数据集成?同样都是一个词,它们在各自的环境下代表的含义一样吗?
我们通过ETL工具来进行结构化数据到数据仓库的抽取,那么就应该用非结构化的ETL工具来实现从非结构化数据到数据仓库的抽取,那么非结构化ETL工具就一定要解决上述问题。
有需求就会有解决方法。现在设计的数据仓库能真正利用txt信息的就不多,而且我们一般都是通过人工的方法把一些文本信息采集到数据仓库中。不知是否还有哪些更有效的方法呢?
作者:
shiyiming
时间:
2007-1-24 12:26
标题:
to shiyiming
3&4:不知道利用spider在网页或者文档中抓取我们需要的信息,算不算?
6:这个问题应该在语义学中有研究,搜索引擎的很多技术就是应用了这方面的研究成果.
我也只是泛泛的知道.斧正!
欢迎光临 SAS中文论坛 (http://mysas.net/forum/)
Powered by Discuz! X3.2