数据质量度量理论在实践中的应用
日期:2024-05-31 作者:小天
来源:www.txunda.com
人气:685
该调查显示,大部分企业都想在数据质量方面加大投入,因为在将来,数据质量将成为最热门的投资领域。这件事有很好的原因。首先,低质量的资料可能会降低用户对资料的信任,并造成决策失误。其次,企业对商业至关重要的系统进行了不断的投资,比如 ML,或者是直接得到了数据仓库的支持,或者是以用户为导向的,不允许出现任何错误。但是,大部分企业都没有办法对他们的数据进行客观的评价,这就导致他们不能确定问题所在,也不能随着时间的推移追踪改善。
在本文中,我们将探索,测量质量时应考虑的问题,以一种关注数据资产的方法,以数据产品为中心,整合品质洞察和数量指示,把洞察力付诸行动,你参加的比赛是什么?如果你像大部分人那样,衡量数据的质量并不是一种乐趣。取而代之的是,您具有清晰的商业要求,比如,使分散的小组能够控制数据的质量,重点放在问题的地方;•当利害关系人对数据的质量进行了几次质疑之后,向他们表示信任;-让管理当局知道你对数据的质量有决定权;与你的数据产品工程师共享你已经保证符合 SLA要求的系统的正常运行时间。
天津天迅达科技有限公司
如果您需要相关服务,可以找天津天迅达科技有限公司,我们的业务有Web开发、iOS APP、Android APP、微信开发、HTML5开发等,天迅达——您身边的App个性化定制专家!
在进行评估数据品质前,您必须了解您所从事的工作是什么。得到可靠的指示是一种投资,当你找到了问题所在,你就可以用更好的数据质量管理改进它们。一种测量品质的方法,开发用于测量数据质量的指南,这样,所有人都可以保持一致。尽管这要视具体的商业环境而定,但是我们认为这些准则是很有效的。度量-测量覆盖范围和运行时间动作-是可行的,随后的步骤也是清晰的
细分,在大部分的案例中,希望基于如何使用数据来指定预期值。我们推荐这一点,是由于你并不希望所有的资产都遵循同样的标准。牢记哪些数据对业务至关重要,哪些数据将被暴露(例如,指示板),哪些资源应当具有 SLA (如数据未准时送达所带来的下游效应),这有助于你评价哪些检查是必要的,并由此度量哪些是重要的。
从数据资产角度对数据质量进行度量,在资产层次上监测数据质量是很容易的:通常的运行时间和覆盖范围都可以在表格层次上被计算出来,并且可以根据元数据的维度(如所有者领域、关键点以及随着时间的流逝)来划分。这样就能俯瞰整个数据集,知道哪个区域的弱点更大,哪个区域的优势更大,这些都与预期相关。为了得到最全面的信息,我们推荐你参考两种度量方法。标准执行时间-在每一次执行中,已有的控制方法有多大比例被成功地采用,覆盖-已经执行了所需控制的数据资产的比例
通过将质量度量划分为具有类似语义的域,可以更接近于商业案例来探讨数据质量。
(1)时效性-按照与业务协议约定的 SLA,数据是否得到了更新,
(2)正确-是否提供了全部的资料;
(3)完备性-数据的语义正确性;
我们也推荐清楚地界定“差”,“还行”和“好”的情形。在我们的例子中,如果得分在50%以下,就会被打上“差”的标签,表示有必要采取措施了。数据质量总览-在不同的质量维度上以及随着时间而改变的正常运行时间和覆盖率,这样的深度可以使你对数据质量提出疑问,比如,尽管我们已经很好地涵盖了 null值检查,但是我们还是要看看那些没有成功的,能不能被修正,或该不该被移除。为什麽我们的声明测试通常的执行时间会大幅降低?
考虑到覆盖度较低,我们在唯一性测试中所花费的大量时间会不会让我们产生一种安全的错觉呢?假定你已经指定了一些中继资料,例如:域的拥有者。在这个例子中,你可以对数据进行细分,看看是否正确得分降低,这很大程度上是由于对数据仓库小组所持有的表格进行了断言测试。
三 基于 Data Products的数据质量度量
尽管以上基于数据资产的方式具有优势,即易于理解和实现,但是对其进行推断却存在着一个重大的缺陷。集中于数据资产的质量度量在本质上并不与数据的用例相关联。换言之,你可以获得95%的准时度分数。但如果 ML预测中包含了主要的广告开支渠道,它在每个星期都无法正常运转,你的技术总监就会大发雷霆,让你去控制数据的质量。我们建议采用另一种方式来测量数据的质量,即以数据产品为中心。
一个数据产品就是一系列的关联资源,比如一个被暴露出来的 DBT模型,一个支持市场自动化的 CLTV模型的表单,或者一个 BI工具。换言之,数据产品是和它的商业案例密切联系在一起的。
这些数据就像汽车仪表板上的警告灯一样。他们不会马上给你一些基本的衡量标准(比如,油量是否在10%以下),但是他们会告诉你产品的问题,它的严重程度,你要怎么做。
在上述示例中,你会立刻发现一个问题,那就是商业 KPI数据产品的上游资产。
以上所有设计图和部分文字均来自网络,如有侵权,请call我删除,感谢~
天津天迅达科技有限公司经过多年来对APP、小程序、以及网站建设的探索,已经帮助每一个客户快速开发出属于自己的APP、小程序、网站,是万千企业之选。
标签:天迅达科技 天津APP开发 天津网站建设 网站建设
在本文中,我们将探索,测量质量时应考虑的问题,以一种关注数据资产的方法,以数据产品为中心,整合品质洞察和数量指示,把洞察力付诸行动,你参加的比赛是什么?如果你像大部分人那样,衡量数据的质量并不是一种乐趣。取而代之的是,您具有清晰的商业要求,比如,使分散的小组能够控制数据的质量,重点放在问题的地方;•当利害关系人对数据的质量进行了几次质疑之后,向他们表示信任;-让管理当局知道你对数据的质量有决定权;与你的数据产品工程师共享你已经保证符合 SLA要求的系统的正常运行时间。
天津天迅达科技有限公司
如果您需要相关服务,可以找天津天迅达科技有限公司,我们的业务有Web开发、iOS APP、Android APP、微信开发、HTML5开发等,天迅达——您身边的App个性化定制专家!
在进行评估数据品质前,您必须了解您所从事的工作是什么。得到可靠的指示是一种投资,当你找到了问题所在,你就可以用更好的数据质量管理改进它们。一种测量品质的方法,开发用于测量数据质量的指南,这样,所有人都可以保持一致。尽管这要视具体的商业环境而定,但是我们认为这些准则是很有效的。度量-测量覆盖范围和运行时间动作-是可行的,随后的步骤也是清晰的
细分,在大部分的案例中,希望基于如何使用数据来指定预期值。我们推荐这一点,是由于你并不希望所有的资产都遵循同样的标准。牢记哪些数据对业务至关重要,哪些数据将被暴露(例如,指示板),哪些资源应当具有 SLA (如数据未准时送达所带来的下游效应),这有助于你评价哪些检查是必要的,并由此度量哪些是重要的。
从数据资产角度对数据质量进行度量,在资产层次上监测数据质量是很容易的:通常的运行时间和覆盖范围都可以在表格层次上被计算出来,并且可以根据元数据的维度(如所有者领域、关键点以及随着时间的流逝)来划分。这样就能俯瞰整个数据集,知道哪个区域的弱点更大,哪个区域的优势更大,这些都与预期相关。为了得到最全面的信息,我们推荐你参考两种度量方法。标准执行时间-在每一次执行中,已有的控制方法有多大比例被成功地采用,覆盖-已经执行了所需控制的数据资产的比例
通过将质量度量划分为具有类似语义的域,可以更接近于商业案例来探讨数据质量。
(1)时效性-按照与业务协议约定的 SLA,数据是否得到了更新,
(2)正确-是否提供了全部的资料;
(3)完备性-数据的语义正确性;
我们也推荐清楚地界定“差”,“还行”和“好”的情形。在我们的例子中,如果得分在50%以下,就会被打上“差”的标签,表示有必要采取措施了。数据质量总览-在不同的质量维度上以及随着时间而改变的正常运行时间和覆盖率,这样的深度可以使你对数据质量提出疑问,比如,尽管我们已经很好地涵盖了 null值检查,但是我们还是要看看那些没有成功的,能不能被修正,或该不该被移除。为什麽我们的声明测试通常的执行时间会大幅降低?
考虑到覆盖度较低,我们在唯一性测试中所花费的大量时间会不会让我们产生一种安全的错觉呢?假定你已经指定了一些中继资料,例如:域的拥有者。在这个例子中,你可以对数据进行细分,看看是否正确得分降低,这很大程度上是由于对数据仓库小组所持有的表格进行了断言测试。
三 基于 Data Products的数据质量度量
尽管以上基于数据资产的方式具有优势,即易于理解和实现,但是对其进行推断却存在着一个重大的缺陷。集中于数据资产的质量度量在本质上并不与数据的用例相关联。换言之,你可以获得95%的准时度分数。但如果 ML预测中包含了主要的广告开支渠道,它在每个星期都无法正常运转,你的技术总监就会大发雷霆,让你去控制数据的质量。我们建议采用另一种方式来测量数据的质量,即以数据产品为中心。
一个数据产品就是一系列的关联资源,比如一个被暴露出来的 DBT模型,一个支持市场自动化的 CLTV模型的表单,或者一个 BI工具。换言之,数据产品是和它的商业案例密切联系在一起的。
这些数据就像汽车仪表板上的警告灯一样。他们不会马上给你一些基本的衡量标准(比如,油量是否在10%以下),但是他们会告诉你产品的问题,它的严重程度,你要怎么做。
在上述示例中,你会立刻发现一个问题,那就是商业 KPI数据产品的上游资产。
以上所有设计图和部分文字均来自网络,如有侵权,请call我删除,感谢~
天津天迅达科技有限公司经过多年来对APP、小程序、以及网站建设的探索,已经帮助每一个客户快速开发出属于自己的APP、小程序、网站,是万千企业之选。
标签:天迅达科技 天津APP开发 天津网站建设 网站建设
相关资讯
- 数字孪生:现实世界的身外化身 2024-12-06
- 微信公众号全面“今日头条化”,自媒体将迎来“第二春”? 2024-12-04
- 优质长视频的破圈效应 2024-12-05
- 奶茶行业的裂变营销 2024-12-03
- 浅浅分享下支付产品经理如何写全局性的需求文档以及工作流程 2024-12-02
- “麦学”爆红:一场精心策划的营销盛宴 2024-11-29
- 如果遇到麦琳式的领导,怎么办? 2024-11-28