5月6日,,,,由国家金融与发展实验室金融科技研究中心学术指导,,北京立言金融与发展研究院、、神州控股、、尊龙时凯、、、神州数码集团共同主办的2023数云原力大会“数据资产•金融核心竞争力”主题论坛在京盛大举办。。
作为全球金融科技大会系列论坛之一,,,本次活动大咖云集。。数据仓库之父、、、Databricks独立董事Bill Inmon线上带来主旨演讲:《Lakehouse技术展望》。。。。
公司的数据一般有三种类型:结构化数据、、文本数据和模拟/物联网数据。。这些都是可用于做出商业决策的数据。。
结构化数据大多数是业务运营的基础数据。。文本数据则贯穿于公司的方方面面,,可惜的是,,,几乎没人会利用它们。。。首先,,,,文本数据可能以多种语言的书面或口头形式存在,,,,像英语、、、西班牙语、、、、中文、、、、葡萄牙语等等。。其次,,,文本数据有不同的形式:有正式用语,,,,还有俚语、、、缩略词以及其他形式的语言。。此外,,,文本数据可能出现在很多场景,,,,例如录音中,,,,书本上,,还可以在互联网和视频中。。。。各种地方都可以找到文本数据。。。。文本 ETL技术能够读取文本数据后转化为数据库可识别的格式。。不利用文本 ETL 技术,,,,就没法对文本数据进行分析。。第三种类型的数据就是机器生成的数据。。。
你会发现,,,只有一部分数据有意义。。。过去,,,,把数据扔进数据湖就好,,,结果它变成了沼泽。。。。怎样把沼泽变成有用的东西呢??我们首先需要具备分析型的基础架构,,,其次需要给数据湖加载集成整合后的数据。。。。为了帮助数据科学家产出效益,,我们需要将数据湖转换成数据湖仓。。。。
分析型基础架构有很多组件,,,比如元数据,,对结构化数据很有用;对于文本数据,,,有本体论和分类法;对于模拟/物联网数据,,,,有提炼算法等等。。。。这些组件会使数据湖仓的管理运营工作更加高效。。。
文本 ETL 能够将文本转换成能够分析的格式,,,,然后放入数据湖仓;模拟/物联网数据通过提炼,,,从中挑出有用的也放进数据湖仓;原始格式的文本无法进行分析,,,必须将文本转换为标准数据库的格式;再把机器生成的数据分离成访问概率高的数据和访问概率低的数据,,,这样整个分析过程就不会被没必要的数据所淹没。。。
一般来说,,,,文本数据的数据量远远多于结构化数据,,,而机器生成的数据又远远多过文本数据。。它们的商业价值也不相同,,结构化数据大多有较高的商业价值,,文本数据有一部分会有较高商业价值,,而机器生成的数据只有极少数有商业价值。。。

将具有高可用性和访问概率高的数据存放到高性能存储,,而将访问概率不高的数据存放到大容量存储。。当发现大容量存储中有想要用于分析处理的数据,,,,只需要从大容量存储中把数据取出存放到高性能存储,,,,以便分析。。。归档信息也是一样,,,将这些数据从高性能系统环境中移出,,存放到大容量存储系统以便于归档。。这样也方便数据科学家访问、、、、使用高性能存储中的数据。。。
数据仓库和数据湖仓不是一回事,,就基础架构而言,,,,数据仓库和数据湖仓有关系,,,但并非同一种东西。。。。而有了数据湖仓,,就能更好地开展业务,,让客户更加满意。。。
5月11日
“2023数云原力大会
——数字金融新征程论坛”
扫码预约注册
