SAS中文论坛

 找回密码
 立即注册

扫一扫,访问微社区

查看: 726|回复: 1
打印 上一主题 下一主题

Unstructured data and Unstructured ETL

[复制链接]

49

主题

76

帖子

1462

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1462
楼主
 楼主| 发表于 2007-1-23 10:03:16 | 只看该作者

Unstructured data and Unstructured ETL

做IT的整天和数据打交道,无非就两种:结构化数据和非结构化数据。结构化数据可以很轻松的被导入到数据仓库中,因为不管是3NF还是星型模型,它们在结构上都属于结构化数据。而非结构化数据包括e-mail,spreadsheet,text,documents,reports。结构化和非结构化有很多的不同,而要想把这些非结构化数据利用到数据仓库中,一定要先解决下面的问题:
1 在结构化数据中可以保证的完整性、一致性如何在非结构化数据中保证呢?
2 如何同步非结构化中的数据呢?
3 如何获取非结构化数据?因为可能需要从包括.txt/.pdf/.doc/email等格式的文件中取得数据。
4 如何获取有用的信息?在doc文件中有很多文字都是没有用的,如何定位到你确切需要的信息呢?
5 如何对非结构化中的数据进行操作?
6 非结构化的数据如何与结构化数据集成?同样都是一个词,它们在各自的环境下代表的含义一样吗?
我们通过ETL工具来进行结构化数据到数据仓库的抽取,那么就应该用非结构化的ETL工具来实现从非结构化数据到数据仓库的抽取,那么非结构化ETL工具就一定要解决上述问题。
有需求就会有解决方法。现在设计的数据仓库能真正利用txt信息的就不多,而且我们一般都是通过人工的方法把一些文本信息采集到数据仓库中。不知是否还有哪些更有效的方法呢?
回复 支持 反对

使用道具 举报

49

主题

76

帖子

1462

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
1462
沙发
 楼主| 发表于 2007-1-24 12:26:08 | 只看该作者

to shiyiming

3&4:不知道利用spider在网页或者文档中抓取我们需要的信息,算不算?
6:这个问题应该在语义学中有研究,搜索引擎的很多技术就是应用了这方面的研究成果.
我也只是泛泛的知道.斧正!
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|小黑屋|手机版|Archiver|SAS中文论坛  

GMT+8, 2025-6-11 10:46 , Processed in 0.068275 second(s), 19 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表